分层次构建汉语树库

本课题的研究目标是:从大规模的经过基本信息标注(切分和词性标注)的汉语平衡语料库中,提取出100万汉字规模的语料文本,经过自动断句、自动句法分析和人工校对,形成高质量的标注有完整的句法结构树的汉语句法树库语料。

具体研究内容包括:

1)汉语句法标注规范:制定符合汉语特点的,对各种汉语句法现象进行详细描述的汉语句法标记集和标注规范;

3)树库构建辅助工具:开发标注结果辅助校对工具,提高整体处理效率。

目前完成的汉语树库可以有以下几方面的应用:

1)作为重要的语言资源,为基于统计的各种自动句法分析模型的建立提供必要的训练数据。

2)作为一个重要的测试平台,为各种自动句法分析器提供统一的评价依据。

3)为汉语句法学研究提供重要的真实文本标注素材,便于语言学家从中总结出新的规则知识和语法理论。

近几年来,中文信息处理技术发展很快,进行汉语语料库句法标注研究的条件已基本成熟了:经过十几年的研究,汉语自动切分和词性标注的处理技术已达到成熟,已经建立了几个较大规模的切分和词性标注语料库,包括清华大学的200万字的平衡语料库和北京大学与富士通合作开发的人民日报标注语料库。为进一步进行句法分析研究打下了很好的基础。而对汉语句法分析方法、依存关系标注、基本句型分析等方面的探索,也为进行比较系统全面的句法结构分析和标注积累了丰富的经验。

在汉语树库构建方面,也已取得一些成果,包括美国宾州大学的UPenn树库[XP00]和台湾中研院的树库项目[HCC00]。它们对汉语句法信息的描述集中在短语和单句层次,通过“NP,VP,S”等标记对句子中的名词短语、动词短语和句子进行描述,其中UPenn树库增加了对句子的深层句法功能的描述,如句子逻辑主语(SUB)和逻辑宾语(OBJ)等,目前发布的树库规模为10万汉语词;台湾中研院增加了对句子语义信息的描述,如句子的施事(Agent)和受事(Patient)等,目前发布的树库规模为约24万汉语词。

我们认为,作为语料库多级加工过程中的一个中间阶段,句法分析和标注的一个重要目标,是为进一步进行汉语句子的词语义项和语义关系标注提供有力的支持。理想情况下,在对句子进行正确句法信息标注的前提下,应能依据一个语义知识库和自动标注工具,准确地标注出大部分的语义信息。而要实现这个目标,就必须在这个阶段给出尽可能详细的句法信息描述。

我们认为,对汉语句法信息的完整描述,至少应包含以下内容:

1)句法成分的功能特征描述:分析它与其他句法成分相组合的能力;

2)句法成分的结构关系描述:分析它内部的组成成分之间的结构语义关系;

3)句法成分的语义中心词描述:分析它的语义中心词位置;

其中2)、3)部分内容,对于下一阶段的语义信息标注尤为重要。

另外,在此阶段,重点需要解决以下两大问题:1)句法成分的划分问题,即如何从线形词语串中划分出正确的句法成分;2)句法成分的定性问题,即如何对划分出的句法成分给出准确的功能结构描述。两者相辅相成,相互促进,共同构成了进行语料库句法标注的重要基础。

从以上目标出发,我们结合汉语分析的特点,确定了一个汉语句法标记集。在短语和单句层次,主要侧重于对各个句法成分的外部功能特征和内部结构关系进行描述,包括11个功能标记和15个结构标记;在复句层次,则侧重于对子句间的逻辑关系描述,总结了11个逻辑关系描述标记,有关内容详见[Th02]。以此为基础,我们在对大规模汉语真实文本的句子进行句法树标注的过程中,逐渐总结形成了一个比较完整的汉语句子的句法树标注规范[Th02]。对不同短语的外部功能分布和内部结构组合进行了比较详尽的描述,对各种多分组合规定了统一的层次划分方法,对一些常见的同形结构或歧义结构给出了详细的歧义分化条件和处理规则。在具体的标注过程中,这个规范的作用是双向的:一方面,可以为人工校对人员提供基本的标注范例,保证最终标注结果的一致性;另一方面,也可以为自动分析器提供有用的规则描述和分析处理的方向和目标。

根据我们目前掌握的资料,英语树库的构建基本上是这样进行的:首先进行词性标注,然后经过自动分析和人工校对[MSM93],或直接进行人工标注[LG91],得到正确的层次结构树。在这一过程中,首先需要解决以下问题:1)选择何种句法标注形式,2)如何确定合适的句法标记集。为此,语言学家的介入是很有必要的。尽管采用了骨架分析(skeletonparsing)的思想,并使用了较小的标记集,但人工标注或校对的工作量仍然是很大的。客观地说,这两个英语树库的顺利建成,很大程度上是得益于其巨大的人力、物力投入以及英语句法理论的丰富的形式化研究成果。而对汉语来说,目前这些条件都还不具备,这就需要我们在汉语树库的构建过程中另辟蹊径,寻找更适合于汉语信息处理研究现状的新方法。

大规模的树库构建是一项庞大的语言工程。在目前的条件下,完全由机器自动完成是不可能的,一定的人工投入是必需的。关键问题是如何寻找一个合适的人工介入点,以最少的人工投入,获得最佳的整体处理效果。就汉语而言,目前的自动句法分析器的能力还很弱,对一些典型歧义结构,特别是复杂句子的分析错误还很多。而在这些方面,人工处理则有优势。如果能通过人工预处理,将复杂的句子分割成几个具有特定句法联系的功能块,限制或排除可能出现的歧义现象,再提供给句法分析器进行处理,就可以大大提高分析精度,从而大大降低对分析结果进行人工校对的工作量,提高整体处理效率。

从这个思路出发,我们将汉语树库的构建分成两个阶段进行:

l第一阶段:在经过正确切分和词性标注处理的汉语语料文本上,标注正确的功能语块信息,形成语块库。

l第二阶段:在汉语句子的语块标注结果上,分析并标注句子的正确句法结构树,形成完整的树库。

这就形成了图1所示的汉语树库构建模式。

图1分阶段的汉语树库构建模式

这种“逐步求精”的树库构建设想,与英语中常用的“一步到位”的树库构建方法相比,最大的好处是它可以大大提高整体的工作效率,以最小的人力物力投入,取得最佳的树库构建效果。

由于语块描述形式相对比较简单,通过自动分析与人工校对,或完全由人工标注,就能快速方便地构建出大规模的语块库。在此基础上进行的句法结构分析,就可以充分利用其中正确的语块边界信息,减少大量歧义结果出现的可能性,从而大大提高了分析器的处理效率和最终分析结果的准确度,使最后的人工校对工作只需集中在对一些常见的难解歧义结构的分析判断上。

另外,作为一个重要的中期成果,大规模的正确标注的语块库本身有其重要的研究和应用价值。一方面,利用从中统计出的语块边界分布数据,可以探索建立新的统计语言模型,不断提高功能语块自动识别工具的处理能力。另一方面,作为一种很好的句法分析预处理数据,在此基础上可以方便地进行各种句法知识的自动获取研究,包括汉语概率型上下文无关语法(PCFG)、汉语结构优先关系(SPR)、基于词汇的汉语结构依存关系等,从而为提高句法分析器的处理能力提供有力的支持。

我们从2000年3月起,开始进行大规模汉语语料库的功能语块标注研究。最初的设想是通过语块划分和标注,描述一个句子的基本结构骨架,从而为进一步构建汉语树库,进行深层的句法分析和知识获取打下基础。遵循以下两条原则:

l穷尽性——在完成语块标注的句子中,任何一个词都必须无遗漏地进入某个语块。

l线性——在完成语块标注的句子中,全部语块将形成一个线性序列,即没有嵌套。

我们设计了包含主(S)、谓(P)、宾(O)、状(D)、补?等8个标记的功能语块标记集(详见[Th00])。下面是一个具体标注实例:

[D自/p古/t以来/f,/,[S人类/n[D就/d[P重视/v[O档案/n的/u保存/vN和/c利用/vN,/,[P设置/v[O馆库/n、/、[P选派/v[O专人/n[P进行/v[O管理/v。/。

目前的所有语块信息都是由人工标注的。利用WORD编辑器中的宏命令定义不同的快捷键,可以做到每个语块通过一键输入,大大提高了标注效率。初步统计显示,最初的标注速度约为每小时处理1200个词。随着对标注规范和加工过程的不断熟悉,标注速度不断提高,1至2月后可以达到每小时处理2400个词。

为了保证标注结果的质量,我们设计了两级检查机制。首先,依据语块标注规范,开发自动检查程序,发现大部分不合规范的标注语块,提供标注者进一步确认或修改。这个过程重复数次后,可以大大减少标注“硬伤”。然后,对标注结果进行随机抽样检查,发现并改正遗留的标注错误,直至标注质量最终达到要求为止。

文献[ZQ97]中介绍的汉语概率分析器,对于一句经过正确切分和词性标注的汉语句子,可以通过以下三个阶段的处理:①成分边界预测,②括号匹配和限制,③分析树剪枝和排歧,自动分析出完整的句法结构树(或森林)。在这一过程中遇到的主要问题是如何排除各种歧义现象。目前的分析器主要利用了从标注语料库中自动习得的汉语概率型上下文无关语法(PCFG)[ZH98]和汉语结构优先关系(SPR)知识[ZH99]。由于这些知识的颗粒度较大,自动排歧效果并不是很理想。

而通过人工介入,进行功能语块分析和标注预处理,就可以解决或部分解决句法分析过程中遇到的一些歧义结构问题,它们包括:

1)复杂状语的左右定界问题:

汉语中一些特殊结构的辖域确定问题,使自动句法分析的一个处理难点。它包括介词结构的右边界,方位结构和‘地’字结构的左边界等。通过对处在句子状语位置的这些结构的明确语块标注,较好地解决了这个问题。

2)双宾结构和兼语结构的边界确定问题:

汉语中双宾结构和兼语结构的边界准确确定,除了需要考虑主要动词的词汇特征外,还需要考虑相应的np、vp与主要动词的词汇语义搭配信息。目前的语块规范中规定需要对这些结构进行显性标注,大大降低了自动分析的难度。

3)复杂名词短语的左边界问题:

汉语中最长名词短语的自动识别是一个很困难的问题。涉及到许多典型歧义结构的排歧问题,如“vnp的vp”结构等。通过对句子中“SVO”功能块的标注,可以解决一部分此类歧义问题。

另外,由于功能语块的区间限制作用,可以将一些歧义结构的出错可能性限制在较小的范围内,大大降低了歧义结构分析错误对整个句子分析精度的影响。

为了充分利用语块标注信息,我们将现有的句法分析器的处理流程简化为为以下两步:

1)语块内部结构分析:调用已有的汉语概率分析器,通过三阶段的分析处理,得到各个语块的内部结构组合。

2)语块间的结构关系分析:在我们目前的语块标注体系中,线形的语块序列实际上已经隐含了一定的层次结构,如:常见的“SDPO”序列,就可以准确地分析为以下层次结构关系:[S[D[PO]]],这种结构关系是由各个语块在句子中体现的句法功能所决定的。据此,可以比较方便地形成句子的整体骨架结构。

这样,可以通过对已有的概率分析器进行功能模块重组,形成一个新的基于语块的句法分析器。从目前的分析实验结果看,它在分阶段构建大规模汉语树库的语言工程实践中,发挥了重要作用。

目前的句法树标注采用了自动分析和人工校对相结合的方法。为提高人工校对的工作效率,我们开发了一个树库校对辅助工具,可以将自动分析器的输出结果转换成“树形”结构显示在处理窗口中。校对人员可以利用鼠标,对分析树进行节点缩放,以显示不同的层次结构;也可以通过节点的插入、删除、拖放、移动等操作,改正错误的层次结构和句法标记,从而方便地完成树库校对工作。在熟练的情况下,目前一小时大约可以校对500—1000个词的语料文本。以后,随着自动分析精度的提高和辅助校对工具性能的改进,校对效率还会不断提高。

从清华大学的200万汉字规模的汉语平衡语料库中,我们选择了约100万汉字的语料文本进行了树库构建实验。首先进行功能语块的人工标注和校对,然后利用上面介绍的基于语块的句法分析器进行自动分析,得到句子的完整句法树(或森林),最后进行人工校对,发现并改正自动分析错误,形成了一个100万字的汉语树库(TCT973)。其中语料文本都选自90年代的现代汉语语料,主要分为文学、新闻、学术和应用等四类,文本所占比例分别为:41.50%、24.68%、24.03%和9.79%。表1和表2列出了树库语料的一些基本统计数据,其中的“简单句子”表示语料库中词项数(包括汉语词和标点符号)小于20的句子,“复杂句子”表示词项数大于等于20的句子。

经过我们的初步估算,通过语块的人工标注和校对,以及基于语块的自动分析处理,大约85%的语料文本都能得到正确的分析结果,只有15%的部分语料需要进行分析树的人工校对,这样就大大降低了人工校对费用,充分显示出分阶段构建树库的思路的优势所在。

表1TCT973库的基本统计数据

文体

文件数

句子数

词项数

汉字数

平均词长(词/句)

文学

139

16335

340208

415040

20.83

新闻

154

6877

173942

246757

25.29

学术

15

5589

158780

240289

28.41

应用

195

3169

66586

97924

21.01

合计

503

31970

739516

1000010

23.13

表2TCT973库的句子长度分布数据

简单句子

复杂句子

平均长度

9692

102895

10.62

6643

237313

35.72

3025

34023

11.25

3852

139919

36.32

2021

24204

11.98

3568

134576

37.72

1870

16946

9.06

1299

49640

38.22

16608

178068

10.72

15362

561458

35.90

本文提出了一种分阶段构建汉语树库的处理设想。它通过引进一个适当的中间标注层次—功能语块,将不同层次的句法知识逐步标注到语料库中,并辅之以机器自动分析和人工校对,取得了很好的整体处理效果。我们目前的100万字的汉语树库的构建实验,充分证明了这种方法的有效性。

在此基础上,我们希望进一步探索更低层次的句法信息,即基本短语的分析和标注方法。最终能建立分层次的汉语句法标注语料库,包括基本短语库、功能语块库和树库等。它们可以为不同层次的汉语句法分析方法和句法知识获取研究提供有力的支持。

这些研究工作继续贯彻了我们最初制定的“标注语料库、自动分析器和语言知识自动发现工具三位一体,同步发展,相互促进,共同提高”的总体研究思路。随着研究工作的不断深入,希望能逐步建立起基于大规模真实文本语料库的汉语句法语义计算平台。这将是我们的长期研究目标。

参考文献:

[FWB01]Fillmore,CharlesJ.,Wooters,CharlesandBaker,CollinF.(2001).“BuildingaLargeLexicalDatabankWhichProvidesDeepSemantics”.ProceedingsofthePacificAsianConferenceonLanguage,InformationandComputation.HongKong.

[HCC00]Chu-RenHuang,Feng-YiChen,Keh-JiannChen,&al.(2000).“SinicaTreebank:DesignCriteria,AnnotationGuidelines,andOn-lineInterface”,ProceedingsoftheSecondChineseLanguageProcessingWorkshop,HongKong.29-37.

[LG91]Leech,G.;andGarside,R.(1991)."Runningagrammarfactory:Theproductionofsyntacticallyanalysedcorporaor'treebanks'".InStigJohanssonandAnna-BritaStenstrom(eds.)EnglishComputerCorpora:SelectedpapersandResearchGuide.1991.15-32

[MSM93]MitchellP.Marcus,MaryAnnMarcinkiewicz,andBeatriceSantorini(1993)."BuildingaLargeAnnotatedCorpusofEnglish:ThePennTreebank",ComputationalLinguistics,19(2),313-330.

[TB00]ErikF.TjongKimSangandSabineBuchholz.(2000).“IntroductiontoCoNLL-200SharedTask:Chunking”.ProceedingsofCoNLL-2000andLLL-2000.Lisbon,Portugal.127-132.

[Th00]“汉语句子的语块标注规范”,清华大学计算机系智能技术与系统国家重点实验室,技术资料,2000年6月。

[Th02]“汉语句子的句法树标注规范V2.0”,清华大学计算机系智能技术与系统国家重点实验室,技术资料,2002年6月。

[XP00]Xia,Fei,MarthaPalmer,&al.(2000)“DevelopingGuidelinesandEnsuringConsistencyforChineseTextAnnotation”.InProceedingsofthesecondInternationalConferenceonLanguageResourcesandEvaluation(LREC-2000),Athens,Greece.

[ZH98]周强,黄昌宁.(1998).“汉语概率型上下文无关语法的自动推导”,《计算机学报》,21(5),385-392。

[ZH99]周强,黄昌宁.(1999).“汉语结构优先关系的自动获取”,《软件学报》,10(2),149-154.

[ZQ97]QiangZhou.(1997)“AStatistics-BasedChineseParser”,InProc.oftheFifthWorkshoponVeryLargeCorpora,4-15.

THE END
1.英语阅读一定要学会“砍树式阅读”,因为英语句子结构的英语知识19粉丝 吕叔湘英汉比较教学法+乔姆斯基普遍语法+神经语言学教学法|顿悟底层逻辑|设定英语参数|建立英语思维 01:03 传统的英语语法教学,是描写式的,只回答了“是什么?” 01:04 语言不是文字,英语学习,不能过早的接触文字,而是应该先做个 01:47 阅读一个英语句子,就是一个“砍树”的过程 01:04 英语学习的...https://www.163.com/v/video/VJFA7OO9F.html
2.语言学概论串讲笔记要结合外语和汉语的例子进行。对词的分类范畴要注意分类标准。句法的内部意义有显性意义和隐形意义。显性意义主要指陈述、修饰、支配、平行、补充等关系和主谓、偏正、动宾、联合、后补等结构。分析层次性的方法——直接成分分析法,尤其是对歧义句的分析。结合层次分析的树形图、句式转换的规则。 http://edu.cnr.cn/yyxx/200710/t20071016_504595656.html
3.计算语言学方法研究全国哲学社会科学工作办公室句法自动分析在计算语言学中叫做剖析(parsing)。所谓剖析,就是取一个输入并产生出表示这个输入的结构的过程。所谓句法剖析(syntactic parsing),就是计算机识别一个输入句子并且给这个句子指派一个句法结构(例如,树形图,线图)的过程。 这一部分分别讨论了目前在计算语言学中广泛使用的基于转移网络的自动句法分析方法、基于...http://www.nopss.gov.cn/GB/219506/219508/219527/14640258.html
1.万字总结数据结构常考应用大题做法画法详解树哈希表图左图计算平均查找成功ASL,右图计算平均失败查找长度 查找成功: (查询次数同等查询次数结点数)?结点总数 ASL=(1*1+2*2+3*4+4*1)/8=2.625 查找失败 (判断出是空子树需要的查找次数*这种情况的数量)/情况数 ASL=(3*7+4*2)/9=3.22 https://blog.csdn.net/weixin_62613321/article/details/143242092
2....句法分析与树形递归神经网络51CTO博客本系列为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记,对应的课程视频可以在这里查看。 ShowMeAI为CS224n课程的全部课件,做了中文翻译和注释,并制作成了 GIF动图!点击第18讲-句法分析与树形递归神经网络查看的课件注释与带学解读。更多资料获取方式见文末。https://blog.51cto.com/showmeai/5318158
3.句法题和树形图,求问语言学大神!那树形图有区别么?那a student with a strong accent 的树形图应该怎么画呢,是不是有两种画法呢?需要把talk补出来画么?还是直接划呀?sorry啦,我这方面有点迟钝啦,没学过英语语言学……感觉介词短语应该都是一样的划呀…… 赞 回应 Psych (I'm a world citizen and NOT.) 2013-07-16 00:49:30 ad...https://www.douban.com/group/topic/41314435/
4.语言学指导书作业(新版)新3、请为下面的句子画出句法结构树形图。 他希望将来研究语言学。 11 4、仔细研读下列不同语言的材料,回答问题。 (1)法语:Cet homme intelligent comprendra la question. 英语单词对译:This man intelligent will understand the question. 英语翻译:This intelligent man will understand the question. ...http://waiyu.en369.cn/yingyu/1690833857a180077.html
5.语言学概论01任务6篇(全文)六、论述题(本大题共2小题,每小题11分,共22分)36.举例说明句法手段有哪几种类型? 37.举例说明组合歧义有哪些主要类型? 鉴赏 教室 攻的敌 裁缝人 语言学概论01任务 第2篇 一、判断题(共 20 道试题,共 40 分。)1.普通话声母h,国际音标用符号[x]表示。A.错误 B.正确 2.普通话声母x,国际音标用符号[...https://www.99xueshu.com/w/filedup5q02l.html
6.标句词野看冶的句法分析圆园22 年第 5 期第 24 卷 总第 176 期 DOI: 10.12152/j.issn.1672-2868.2022.05.014 巢湖学院学报 允燥怎则灶葬造 of 悦澡葬燥澡怎 University 晕燥援5熏 圆园22 灾燥造援24 郧藻灶藻则葬造 杂藻则蚤葬造 晕燥援176 标句词野看冶的句法分析 侯雨婷 渊北京语言大学 语言学系袁北京 100083冤 摘...http://xb.chu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=648
7.功能语言学(精选十篇)布拉格语言学派在句法上的功能分析对以后的话语分析和篇章语言学的研究产生了很大的影响。Mathesius提出著名的句子功能全景,认为有必要把句子的实际切分和形式切分区别开来,实际切分的基本要素分别是表达的出发点(主位)和表达的核心(述位)。 受Büler思想影响,布拉格学派在《论纲》中阐述了语言的两个基本功能:体现智能言...https://www.360wenmi.com/f/cnkeyir143w5.html