【摘要】传统的自然语言处理模式是“语法规则+词典”,但语言中许多词语组合不能或很难用语法规则加以描述。把这些组合作为整体收入词库中可以使语法得到简化,从而降低系统的复杂度。基于这种“大词库,小语法”的思想,本文论述了建立现代汉语短语信息库的必要性,并对建库的方法、收录的原则和信息库进行了简要的介绍。
一、 引言
自然语言处理是基于知识的工程,要想使计算机具有人的语言能力,就必须把人的语言知识存储在计算机中,并把人理解和生成语言的过程形式化。按照乔姆斯基的理论模式,人的语言知识的基础部分包括语法规则和词典两个部分(Chomsky,1965)。但是,在自然语言中普遍存在着一些大于词的单位(词的组合)不能用语法规则来处理,Becker(1975)较早提出了这一问题。他认为,像let alone,as well as, so much for这样的短语在英语和其他自然语言中是普遍存在的,而且很难用语法规则生成出来。近年来,计算语言学家逐渐认识到,不能把语言知识严格地分为词典和语法规则两部分。Wilensky(1984)提出了“短语方法”,提出把短语和词一样放到词典中,Zernick和Dyer(1987)则更往前走了一步,他们不光主张把能产的和非能产的短语都放到词库中,甚至主张不要语法规则,用短语库代替语法规则。这种做法也许过了头,但在机器词典中除了收入普通的词之外,还需要收入一些较凝固的短语,这已成为许多应用系统开发者的共识。如Smadje(1993)对搭配的研究就是以语言生成为目标的,世界著名的机器翻译公司SYSTRAN的汉英机器翻译系统的词典规模达到60万,其中收入了大量的短语( Yang,J. & Gerber,L.,1996)。
正是基于这种“大词库,小语法”的思想,北京大学计算语言学研究所在经过10年努力完成“现代汉语语法信息词典”(俞士汶等,1996)的工程之后,就把“现代汉语短语信息库”作为一项重要的基础工程列入研究计划。本文将从建立汉语短语信息库的必要性、短语信息库的收录原则、建造方法和信息库的描述等方面对这项工作作一简单介绍。
二、 建立短语信息库的必要性
词的组合是一个连续体,其两极分别是固定短语和自由短语,中间有一段模糊地带,可以称为半固定短语。在汉语中,固定短语包括成语和惯用语,它们已经在传统的词典中占有一席之地,尽管其范围还不是十分清楚。自由短语就是可以用规则加以简单描述的,如“一个人、买东西、去上海”等,这些短语不必收入词库中。处于模糊地带的半固定短语,有人称之为词语搭配(collocation),有人称之为词汇化短语(lexical phrase),如“收信人、经济效益、规章制度、基本工资、打电话、办丧事、挖掘潜力”等,这些组合有自己的语法结构,也可以用规则加以描述。但是,第二语言学习者往往不容易掌握这些组合,另外,它们在被翻译成另一种语言时,经常不能用词对词翻译的方式,说明这些短语具有一定的凝固性。这些短语就是我们的短语信息库所要重点收录的对象。
以下将从第一语言习得、第二语言习得及自然语言处理三方面来说明词语搭配或词汇化短语是人类语言知识库中的一个有机部分,它是词典和语法规则不能代替的。
2.1 从第一语言习得的角度看
2.1.1 儿童语言习得
第一语言习得的研究表明,在儿童早期的习得过程中,作为习得的基本单位是一些未经分析的语块(unanalyzed chunk),在反复习得某些相同的模式之后,孩子会从中概括出一部分短语的构造规则,从而形成语言能力中的语法规则,而作为词汇化短语的那一部分则作为整体存储在心理词库中(Peters,1983)。本文作者之一通过对自己女儿(现4岁半,以下简称被试)的观察,也得出这样的认识,即儿童在习得过程中除了习得词汇和语法规则之外,同时也习得词语搭配的知识。这可以从两个方面得到证明:首先,儿童除了能正确地生成母语中的许多搭配之外,还具有识别错误搭配的能力。例如,被试在3岁时听到父亲偶然因为口误说出的一句“你吃茶吗?”后,立即作出反映,指出不能说“吃茶”,应该说“喝茶”。其次,儿童在习得语言的过程中会出现一些搭配的错误。比如,被试在4岁说话时出现“弹电脑”这一组合,笔者推测她是根据“弹电子琴”类推出“弹电脑”的,因为她经常弹电子琴,熟悉“弹电子琴”这一搭配,但她对电脑不太熟悉,不知道与之搭配的动词是什么,但她看到使用电脑时双手不断敲击键盘,跟弹电子琴差不多,于是就造出了“弹电脑”这一错误的搭配。尽管孩子知道“用”这个动词,但却不知道把它和“电脑”联系起来,这也说明了人的语言知识除了词汇和语法规则之外,还有一部分,那就是词语搭配的知识。
2.1.2 成人的“用词不当”
操母语者在说话或写作时经常会出现词语搭配上的错误,即用词不当。吕叔湘、朱德熙(1979)指出:“一个词如果不是生造出来的,它本身是无所谓当与不当的,只有当它放在特定的上下文里,才发生当与不当的问题。譬如‘人民空军的雄姿第一次在祖国的天空飞翔’,‘雄姿’显得不恰当,因为‘雄姿’是不会飞翔的”。“要避免用词的错误,不仅要了解每个词的意义,还要注意它常跟那些词配合。造句的时候,要仔细检查相关的词配合得是否适当,合不合习惯”。这类错误往往发生在语文水平不太高的人特别是一部分中小学生身上,而发生错误的这些词基本上都是书面语词汇。这些人说话平常说大白话的时候不会出错,写文章的时候往往就出现错误。这说明他们还不太了解这些书面语词的用法,即不了解这些书面语的搭配习惯。这也说明了词语搭配的知识对操母语者来说并不是与生俱来的,也需要通过不断的学习才能获得。
2.2 从第二语言习得的角度看
如果说词语搭配的知识对于操母语者的问题主要限于书面语范围的话,那么它对于第二语言学习者来说,问题就会普遍得多、严重得多。一些对操母语者来说十分简单的搭配,哪怕是三岁孩子也不会发生错误,但却经常使第二语言学习者错误百出。第二语言学习者往往根据自己母语中词语搭配的习惯,按照词对词翻译的方式造出目标语中的组合形式,而这些组合形式往往在目标语中是不符合习惯的。如下面是中国人学英语出现的一些错误:
错误形式 正确形式
receive the telephone answer the telephone
chain shop chain store
a check of $50 a check for $50
crowded traffic busy/heavy traffic
再如,“名词+名词”构成的名词性短语指称一个新的对象的方式,在许多语言中都是一种十分能产的方式,而第二语言学习者往往根据母语的习惯类推而产生错误。德国学生根据德语的Krankenwangen(救护车)造出ill car,根据Alphatraum(恶梦)造出Alp dream。由于他们经常出现这样的错误,因此对这类词语搭配往往采取逃避策略。比如以西班牙语为母语的学生在学英语时经常用for短语形式来代替“名词+名词“的搭配形式,如“ shoes for water ice”(ice skates),“one man is clean for clothes ”(dry cleaner),“this shoes for skiing”(ski boots),“rooms for sleep”(bed room)( Hatch,E. and C.Brown.1995)。
2.3 从自然语言处理的角度看
2.3.1 语言理解
词汇歧义是语言理解中的一个难题。一个多义词在具体的上下文中实现哪个意义,往往跟它搭配的对象有关,因为某些义项只出现在特定的搭配中。如动词“打”有多个义项(《现代汉语词典》列出了25个义项),但在下面的组合中,“打”的意义都是确定的:
打鼓 打球 打酱油 打电话 打水 打包裹 打伞
打毛衣 打井 打鱼 打柴 打主意 打手势 打比方
如果在知识库中没有存储这些搭配知识,要想在上下文中确定“打”的意义其困难是可想而知的。
2.3.2 语言生成
在语言生成时,同一个意义往往有几个同义词可以选择,选择什么样的词合适,往往要根据搭配来确定。如在英语中,strong和powerful是一对同义词,但根据修饰的对象不同往往要选择不同的形容词,如能说strong tea而不说powerful tea,说poewrful car而不说strong car。这种搭配就是一种习惯,很难用规则加以描述。如果把这些搭配存储在计算机中,在语言生成时就会避免出现一些错误的搭配,从而使计算机的输出可读性更强。
2.3.3 机器翻译
译词选择是机器翻译中的一项关键技术。对源语言中的一个组合AB来说,如果词A在目标语中有m个对译词,词B在目标语中有n个对译词,那么在不考虑词序的情况下AB就有m*n种可能的译法。在这些译法中如何选择最合适的译法就成为一个十分棘手的问题。困难主要表现在:
(1) 源语言中同一个词,因为搭配的对象不同就必须翻译成目标语中不同的词。如英语中的动词play带上不同的宾语时就要翻译成不同的汉语动词:
play football 踢足球 play basketball 打篮球
play the piano 弹钢琴 play violin 拉小提琴
play a record 放唱片 play a joke 开玩笑
(2) 源语言中的词组对应目标语中的一个词。如:
源语言 目标语 源语言 目标语
——————————————————————————————————
流氓习气 hooliganism do one’s best 尽力
工作效率 efficiency on business 因公
民意测验 poll make a counterfeit of 伪造
(3) 源语言中的短语虽也译成目标语中的短语,但不能用词对词的方式翻译。如:
源语言 目标语 源语言 目标语
——————————————————————————————————
个人崇拜 personality cult business hours 营业时间
合资企业 joint vernture continuation class 补习班
经济作物 financial crops make no objection upon 不反对
2.4 小结
综上所述,词语搭配或词汇化短语应该是除了词和语法规则之外的另一类重要的语言知识,无论是对语言教学还是对计算机的自然语言处理,词语搭配或词汇化短语的知识都是十分重要的资源。所以,为了提高汉语信息处理系统的水平,使之胜任处理大规模真实文本的任务,建立一个大规模的汉语短语信息库的工作是十分必要的。该信息库建成之后,除了应用在以上所说的语言理解、语言生成和机器翻译领域之外,还可以应用在信息检索、文本自动分类、自动文摘和汉语拼音语句输入等应用领域。
三、 短语信息库的收录原则
众所周知,一种语言的词汇是一个相对有限集,即尽管它的元素数目是经常不断变化的,但在一定的时间内,它的数目是有限的,而较常用的词汇一般在几万个左右。但这些词组合起来构成短语,其数量就是一个无限集。这些短语不可能都收入短语信息库中,因为不管计算机的存储量有多大,最终还是有限的, 而且信息库的建造除了考虑存储空间之外,还应该考虑投入的人力和系统的性能,更重要的是,要考虑信息的冗余度。所以,我们面临的问题是,如何在这无限的集合中选择有限的而又有价值的短语收入信息库中。
如前所述,在语言知识库中存在相互独立而又紧密相关的三个部分:词库、词汇化短语和语法规则。所以在考虑短语信息库的收录原则时,首先应考虑词汇化短语和词库及语法规则的关系。以下是一些基本的收录原则:
(1) 短语信息库是词库的扩展和延伸。这意味着已经收入《现代汉语语法信息词典》中的凝固短语,包括成语、惯用语等将不收入短语信息库,短语信息库主要收录半凝固的短语。但由于在汉语中复合词和短语的界限不甚清楚,而按照严格的语言学标准会把一些较凝固的语素组合排斥在复合词的范围之外,如“精确性、组织性、一体化、服务业、大规模、全方位、各地、我国、军方、无法、身穿、养成、变为”等,作为对词库的补充,这些都是短语库首先考虑要收录的对象。
(2) 把一些能产性较弱的语法规则生成的短语收入短语信息库中。如在现代汉语中表示存在的“V+有”结构(如“设有、雕有、写有、藏有”等),能够进入这种结构的动词并不多,根据孙宏林(1996)在1150万字语料范围内的考察,只有83个动词能够进入这种结构,因此我们可以把这些结构作为整体收入短语信息库中。类似的如:(a)“N+V”式定中结构,如“体制改革、经济管理、文艺演出”等,这种结构是书面语中较为常见的一种造名格式,但能够进入这种结构的名词和动词也是相当受限的,拿动词来说,单音节动词不能进入这种格式,只有双音节动词才有进入这种格式的可能。据车竟(1994)的考察,在《动词用法词典》所收的1328个动词中,只有70个动词可以作该结构中的中心语。(b)能够受程度副词修饰的动宾结构,如“有钱、有前途、费时间、没意思”。这类结构整体呈形容词性,翻译成外语时往往不能用词对词的方式翻译。
(3) 把一些构成成分意义较多、用法特别复杂的短语收入短语信息库中。如我们前面举到的动词“打”带宾语的例子,由于“打”的义项很多,而具体实现的义项往往跟所带的宾语有关,所以把整个动宾短语收入信息库中,就可以免去词义消歧的烦恼。再如汉语的动趋式,由于趋向动词的引申义特别多,所以由部分的意义很难推出整个动趋式的意义,如“爱上、安上、补上、垫上、系上、写上、穿上、记上”等。
(4) 短语的长度限制。由于短语构造的递归性,短语的长度在理论上是无限的。所以必须对收录的短语长度加以限制。目前主要收录长度为2或3的短语(短语长度定义为其中词的数目)。
(5) 立足汉外机器翻译,面向多种应用领域。如前所述,短语信息库的用途是多方面的,它应满足各个方面的要求。但从目前来看,机器翻译对它的要求更为迫切,所以我们把机器翻译作为短语信息库优先应用的领域。因此对其中每一条都给出相应的译文,第一阶段将给出英文译文,下一步再考虑给出日文、德文等译文。
(6) 以通用性为基础,根据需要增加专业条目。
四、 建造短语信息库的方法
建立一个大规模的短语信息库,如果仅仅依靠手工方式收条、编写,其工作量是十分惊人的,而且也很难保证质量。因此,编写工作的自动化是提高编写效率和质量的重要保证。要实现编写的自动化,就必须利用大量的在线(on-line)资源。这些资源包括机器可读词典和计算机语料库。一方面,目前已有一些关于汉语搭配和词语用法的工具书,如张寿康、林杏光(1992)、张卫国,冀小军(1994)等,还有一些汉外词典中也收了相当数量较短的的汉语短语,而且还有相应的外文翻译,如外语教学与研究出版社出版的《现代汉英词典》等。这些工具书中包含了大量的合法的短语,但这些短语并不一定都是词汇化短语,需要从中进行挑选。另一方面,随着近些年来语料库语言学的发展,出现了许多大规模的语料库,而且发展了一些从语料库中自动获取知识的技术。我们以人用词典和语料库为基础,采取了以下两条建造短语信息库的途径:
(1) 利用语料库从现有面向人的词典中抽取词汇化短语。这些词典中包括了大量的合法短语,但这些短语不一定符合词汇化短语的要求。所以我们可以把这些短语作为候选,利用统计方法在大规模语料库中对这些短语进行定量分析,根据一定的标准,选取其中合格的短语收入短语信息库中。尽管语言学家对词语搭配和词汇化短语的性质有许多讨论,但要在自由短语和词汇化短语之间划一条界限还是十分困难的。对这些词典中收入的短语,哪些应该收入信息库,哪些不应该收入,如果让人来判断也难免见仁见智。所以以大规模语料库为基础,应用统计手段对这些短语的价值进行客观评价,既可以避免人为因素造成的差异,又可以大大地提高工作效率。对短语的评价主要看词语搭配的强度,搭配的强度高,说明短语的凝固程度高。目前相关研究根据的的统计指标有:(a)基于N-gram的频率统计(Choueka,1983);(b) 互信息(mutual information)(孙茂松等,1997);;(c) z-score和方差(variance)(Smadja,1993)。
(2) 从语料库中直接抽取词汇化短语。Church & Hanks(1989)和Smadja(1993)提出了用统计从语料库中抽取搭配信息的方法,孙茂松等(1997)把这些方法用于汉语搭配信息的抽取,并取得了初步的实验结果。所依据的统计信息包括互信息和离散度等。这种方法的优点是对语料库的要求不高,如对英语来说只需要原始语料库就可以,对汉语来说,只需要分词的语料库就可以了。其缺点是,抽取出来的搭配或短语不一定是合法的。如根据孙茂松等(1997)对“能力”一词搭配对象自动抽取的实验,正确率只有33.94%。例如,根据统计指标,和“能力”共现频率比较高的词语有“石油、使、而、不、民族”等,但它们和“能力”并不能组成合法的短语。所以用这种方法抽取的结果必须经过人工校验,确定短语的合法性。另一种从语料库中抽取短语的方法是规则和统计并举的方法,孙宏林(1997)就此进行了初步的实验。这种方法是在分词和标注词性的语料库上通过一定样本的归纳,得出短语构造的规则,然后利用这些规则再到新的语料库中自动抽取短语。这种方法的优点是抽取的短语合法性高,据孙宏林(1997)对汉语中“V+N”构成的动宾短语的实验,对封闭测试,在召回率为80.7%的情况下,抽出短语的正确率达到98.2%;对开放测试,在召回率为77.%的情况下正确率达到96.7%。但这种方法的缺点是对语料库的要求比较高,而且只能抽取连续的短语。
在这两种途径中,都涉及到知识获取和机器学习等热门问题,有许多问题有待探讨,我们相信,对这些技术的深入研究,不仅有利于在知识获取方面取得进展,而且可以推动整个语言信息处理技术的发展。
五、 短语信息的描述
收集到短语信息库中的每个条目,只有在填入丰富的信息之后才能发挥更大的作用。短语信息库中的信息分为通用信息和专门信息两部分。通用信息是指在各种应用中都需要的基本信息,它包括一些分类信息和结构信息。
词汇化短语,首先根据内部成分是否连续可以分为两种:(1)连续的。如“抽烟、大干、飞跑、现场直播”等。(2)非连续的。如“越……越……”、“集……之大成”、“置……于不顾”。其中第一部分是收录的重点,第二部分除了一般连接分句的关联词语(如“越……越……”)之外,还包括一些固定的框式结构(如“集……之大成”、“置……于不顾”),在这种结构的槽中可以填入一定类型的结构,从而形成一个大的语块。这种非连续的框式结构用上下文无关文法是很难表达的。
按照构成成分的功能类可以分为:名词性的、动词性的、形容词性的、时间结构、方位结构等。
结构信息包括:(1)短语的内部构成成分的词类;(2)短语的结构层次和结构关系。
短语的功能分类、结构层次和结构关系可以利用一个简单的短语分析器自动分析得到结果,最后经过人工校对。由于短语较短,因此可望得到较高的准确率。如果利用规则方法,则更可以利用上下文信息得到更高的准确率。短语中的词类信息则可以利用较为成熟的自动词性标注技术自动标注,当然也需要最后经过人工校对。
专门信息包括:(1)对译信息。根据不同语种的需要填上不同的译文。(2)领域信息。对于不同专业领域的术语填上领域信息。这对于信息检索、文本分类和机器翻译都是十分有用的。
“现代汉语短语信息库”的目标是建成50万条左右规模的通用库,根据需要再加入各个专业的专业术语条目。由于该项研究尚处于探索阶段,所以我们把第一阶段的目标定在10万条左右。这10万条短语,除了给出基本的句法功能和结构信息之外,还给出了英文翻译。目前第一阶段的工作已基本结束。
参考文献
Becker,J.(1975). The phrasal lexicon , in B.Nash-Webber and R.Schank(eds.) Theoretical Issues in Natural Language Processing 1. Cambridge, Mass. : Bolt,Beranek,and Newman.
Banbrook,G.(1996),Language and Computers ,Edinburgh University Press.
Choueka,Y.;Klein,T.;and Neuwitz,E.(1983).Automatic retrieval of frequent idiomatic and collocational expressions in a large corpus ,Literary and Linguistic Computing,4,34-38.
Chomsky,N.(1965).Aspects of Syntax ,The MIT Press.
Church,K.and Hanks,P.(1989).Word association norms ,mutual information ,and lexicology,in Proceedings of 27th Meeting of the ACL,pp.76-83.
Hatch,E. and Brown,C.(1995). Vacabulary,Semantics,and Language Education, Cambridge University Press.
Yang,J. and Gerber,L.(1996).SYSTRAN Chinese-English Machine Translation System,in Proceedings of International Conference on Chinese Computing’96,June,Singapore.
Nattinger,J. and DeCarrico,J.(1992).Lexical Phrases and Language Teaching, Oxford University Press.
Peters,A.(1983),The Unit of Language Acquisition ,Cambridge University Press.
Smadja,F.(1993).Retrieving collocation from text: Xtract, Computational Linguistics 19(1),143-177.
Wilensky,R.,Arens,Y. and Chin,D.(1984).Talking to UNIX in English :an overview of UC, Communications of the ACM 27:574-93.
Zernick, U. and Dyer,M.(1987). The self-extending phrasal lexicon ,Computational Linguistics 13(3-4):308-27.
车竟(1994),《试论“N+V”式定心结构》,《汉语学习》第1期。
吕叔湘、朱德熙(1979),《语法修辞讲话(第二版)》,中国青年出版社。
孙宏林(1996),《由“V+有”构成的存在句》,《世界汉语教学》第2期。
孙宏林(1997),《从标注语料库中归纳语法规则:“V+N”序列实验分析》,载《语言工程(第四届全国计算语言学联合学术会议论文集)》,清华大学出版社。
孙茂松,黄昌宁,方捷(1997),《汉语搭配定量分析初探》,《中国语文》第1期。
俞士汶,朱学锋,王惠,张芸芸(1996),《现代汉语语法信息词典》规格说明书,《中文信息学报》第10卷第2期。
张寿康,林杏光(1992),《现代汉语实词搭配词典》,商务印书馆。
张卫国,冀小军(1994),《现代汉语辞海》,人民中国出版社。
(此文发表于《术语标准化与信息技术》,1998年第2期,P26-31)