首页 百科知识 语料库语言学的发展与谓词同义词辨析

语料库语言学的发展与谓词同义词辨析

时间:2022-03-04 百科知识 版权反馈
【摘要】:在同义词辨析领域,语言事实尤为重要,重视语言事实一直是同义词辨析领域的优良传统。随着计算机的介入,语料库语言学的兴起,大规模的语料检索早已成为可能,语料库语言学的发展使同义词辨析领域受益颇深,研究者们摆脱了效率低下的手工作坊式的语料收集整理,足量语料的获得不再成为耗时费力的问题。首先,构建一个现代汉语语料库,这个语料库既应有足够的量,又应该有相应的质,成为能够反映现代汉语本质属性的一个样本。
语料库语言学的发展与谓词同义词辨析_语义角色视角下的谓词同义词辨析

现代语言学的一个显著转型是从主观内省、以研究者主观感悟为主要手段转向调查统计,用事实说话。 在同义词辨析领域,语言事实尤为重要,重视语言事实一直是同义词辨析领域的优良传统。20世纪80年代以前,同义词词典的编纂者们都注重手工搜集语料,然后总结语言事实,归纳同义词组内成员的区别,但是,由于手段所限,收集的语料数量是有限的。 研究者往往苦于没有时间搜集到足量的、有代表性的语料而对自己的辨析工作不满意。 随着计算机的介入,语料库语言学的兴起,大规模的语料检索早已成为可能,语料库语言学的发展使同义词辨析领域受益颇深,研究者们摆脱了效率低下的手工作坊式的语料收集整理,足量语料的获得不再成为耗时费力的问题。 我们在语义角色框架下对谓词同义词差异进行观察分析将运用语料调查,从语义角色数目差别、角色关系差别、语义属性差别角度分析语言材料,然后将观察分析的结果用以上纲目统领起来。 本书的研究工作意义不仅仅在辨析同义词方面,通过对与谓词组合的体词性成分(论元)的语义属性的描写,可以为计算机处理汉语提供比较充分的语义知识,为建设适量足用的汉语语义知识库做一些基础性的工作,满足机器翻译、信息抽取、快速检索等自然语言处理方面的需求,这一工作对于面向机器翻译的现代汉语语义词典的编撰,对于语言知识库建设有较大的参考价值。 我们的具体做法如下。

首先,构建一个现代汉语语料库,这个语料库既应有足够的量,又应该有相应的质,成为能够反映现代汉语本质属性的一个样本。 本着这样的要求,尽量选取广泛的语言材料,具体材料来源有以下三个:

①《人民日报》1995—2000年共六年的语料,约1.5亿字,是作为新闻语体的代表;

②《作家文摘》1993—1997年共5年的语料,约1300万字,作为文艺语体的代表;

③自五四运动以来的现当代名家作品,共7700多万字,作为以上两类语体的补充。

以上共计2.4亿字,该语料库达到了一定的规模,这些语料没有进行词语切分和词性标注,一切均为原始状态。

第二步,抽取研究样本。 我们用Em Editor Professional(6.0版)从语料库中抽取用例。 从以上语料库中第一次检索出来的例句往往成千上万,数量众多,不可能一一考察。 为了从海量的用例中抽取出有代表性的语料,我们引入了随机数,从语料库中所查到的总用例不足300条的,全部考察。 对超过300条不到500条用例的词目也全部考察,对用例超出500条的,用MSExcel(2010版)的随机数发生器从所有用例的数目中产生300个随机数,然后利用MSAccess(2010版)去除重复数字,将去重以后的随机数导入MSAccess数据库,将检索到的用例文本也导入同一Access数据库,然后将随机数表和用例表进行连表查询,抽取样本。 这样,使我们的研究对象能够以少体现多,以部分体现全体,达到质与量的辩证统一。

第三步,以统计数据说话。 最初的设想是将观察结果全部以统计数据的形式汇报出来,但是由于时间的关系,这样的统计数据只是做了一部分同义词组,带有样例示范的性质,对于研究范围内的其他的同义词组仍然只是简单的汇报。 以往的同义词辨析,频率信息无法呈现,常拿A的常用义项跟B的非常用义项相比较。这对母语学习者来说,不会造成问题,但是对于第二语言学学者来说,往往会把二者的使用频率等同,给他们的学习造成不必要的麻烦。 我们的统计数据将显示在某一语法功能或语义角色关系、语义属性特征下的用例数及其在总用例中所占的比例,从中可以显示出同义词的使用频率差别。 吕叔湘在谈到同义结构“甲胜乙—甲败乙”的区别时,就使用了频率信息作为区别的手段,指出后者用于战争的频率远远高于前者。[76]利用统计频率信息来显示差别,是同义词辨析客观性的体现,它至少显示了同义词组内成员的使用倾向。 对频率信息的处理目前国内这方面可以借鉴的材料还少得很,现把做法说明如下:

(1)在观察语料以归纳谓词的语义角色关系和每一角色的语义属性时,谓词单独作主、宾语无法提供这方面的语义信息,不在本书考察的范围之内,但动词、形容词短语做主宾语,则根据短语内谓词的语义组合类型和语法结构类型列入相应的统计类型中去。

(2)谓词构造新词(如“动员”构造的新词“动员力”“动员令”等)也不在考察的范围之内。 如果发现由谓词构成的名词在抽样语料中占比重过大,为了让抽样语料尽量达到一定的覆盖面和代表性,将这些词从第一次检索到的文本中删掉,再重新进行抽样。

(3)对多义项词的处理。 由于本书使用的语料是没有经过切分标注的生语料,所以,经过随机抽样去重的用例包含该词多个义项,而对同义词的辨析是以某一义项为单位的,如果无关义项在抽样语料中所占比例过大,暂时没有更好的解决办法,只能手工分拣出需要的义项的用例,时间的限制没有从第一次检索的语料中再增加需要的用例,以凑足500之数。

(4)存现结构将不进入频率统计的视野。 这是因为存现结构的语义角色关系具有特殊性,存现结构的形成有时候必须打破动词原有的论元之间的语义结构关系,[77]彭玉海也指出存现结构具有其特殊性,需要专门的研究。 关于存现结构的语义表达,本书在第五章中有详论。

(5)对于反证的态度。 在总结归纳语言事实的时候,遇到例外是难免的,这也就是为什么乔姆斯基把语言看作一个精确定义的系统存在问题的原因。 在利用统计数据说话的时候,汉语语言学的一个优秀的传统就是“例不十,法不立”,与之相对的是“例外不十,法不破”,但是利用计算机对大规模真实文本语料库进行检索,找到10个以上的例外是非常容易的,在利用语料库检索用例进行归纳研究的时候,还应遵循冯志伟所提倡的另一个重要的原则:“例过十,法未必立;例外过十,法未必破”。[78]这时,就需要用直觉去甄别,不回避例外。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈