首页 理论教育 语料库应用于词典编纂的特殊性

语料库应用于词典编纂的特殊性

时间:2022-03-29 理论教育 版权反馈
【摘要】:6.2.2 语料库应用于词典编纂的特殊性6.2.2.1 描述性与规约性Baker也指出,平行语料库最重要的贡献在于它使人们认识到翻译研究应从规约性研究向描述性研究过渡。然而应该指出的是,她的这个观点更适用于非词典文本的翻译研究,对于词典编纂来说,平行语料库提供的规约性与描述性信息都相当重要。从词典编纂目的与原则来区分,词典可分为规约型和描述型两种。

6.2.2 语料库应用于词典编纂的特殊性

6.2.2.1 描述性与规约性

Baker也指出,平行语料库最重要的贡献在于它使人们认识到翻译研究应从规约性(prescriptive)研究向描述性(descrip-tive)研究过渡(Baker,1995:231)。然而应该指出的是,她的这个观点更适用于非词典文本的翻译研究,对于词典编纂来说,平行语料库提供的规约性与描述性信息都相当重要。

从词典编纂目的与原则来区分,词典可分为规约型和描述型两种。偏规约型的词典更重视语言规范,而倾向于描述型的词典更侧重于语言事实。然而在实际操作中,若完全遵循一方而完全否定另一方的做法是不明智的,实际上也是不可能的。

由于词典往往被使用者奉为圭臬,对语言的规范作用非同小可,因而词典的规约特性符合使用者的需要,也符合当今词典编纂“用户友善”的趋势,双语词典尤甚。由于双语词典是介于两种语言之间的桥梁,其中一种语言往往是使用者的母语、而另一种是其外语,因而双语词典本身就不可避免地具备了学习词典的部分功能,因此其规约性显得异常重要。然而如果一部词典里充满了过死过严的规约性定义或限定、而缺少真实鲜活语料支持的话,就会降低词典对语言使用的指导意义,严重降低词典整体的质量。

另一方面,由于语料库真实地记录了使用中的语言(包括书面语和口语),因而它为词典编纂提供了极其翔实的描述性语料。因而现代词典的编纂越来越重视语料库信息的利用,力求尽可能真实、自然地描写语言,不会囿于“规约”而硬造例句。基于语料库编纂的词典有其巨大优势:收词量扩大,收词覆盖面增广,释义更为准确,词频信息更为详尽,例证更为真实和自然。使用者从中会得到这样的信息:符合语法规则的语言不一定是实际使用当中的语言,而有些貌似不合语法或不合逻辑的也未必是错误的语言。因而,基于语料库技术编纂的词典也越来越接近于语言使用的真实面貌。然而如果一切以语料库为准,为了描写而描写,据此编成的词典很可能会纠结杂芜、妍媸混生。比如,从美国的MRM(Multilingual Re-search&Management Inc)汉英语料库蓝本里,笔者就连续找到了近10个大同小异的方言词条“黑洞洞”、“黑格隆冬”、“黑姑冬”、“黑古隆冬”、“黑咕隆咚”、“黑古隆东”、“黑古洞”、“黑谷隆东”、“黑咕笼咚”等,如果把语料库所描述的词条统统不经剔除地编入词典,那么,词典的信息熵值就会大大受损,词典的质量也令人生疑。因此,这种不加鉴别的描述性是基于语料库的词典编者必须时刻警惕之处。此外,作为真实语言材料的汇集,语料库中难免会收录一些口误、笔误、逻辑不清或涉及敏感话题的语料,如果编入词典时不加甄别,词典的权威性也同样会受到质疑。

由此可见,对于词典编纂来说,规约性与描述性两者不可偏废。对语料的纯客观描写不足以得出普适性的规则,而纯粹的规定也不能恰当地覆盖语言事实。(Sinclair,1999:60)在丰富的语料库资源面前,词典编纂者既不能一味描写语言事实,什么都不规定,造成词典使用者编码和解码过程中的实际困难;也不能忽视语言的发展事实,搞教条主义、把语言使用规定得过于呆板。

6.2.2.2 可比语料库,抑或是平行语料库

Baker同时也提出,在平行语料库、多语语料库和可比语料库三种语料库当中,可比语料库对翻译研究的意义最为深远(Baker,1995:231)。然而对于双语词典的翻译研究来说,可比语料库的作用就未必如平行语料库那么明显。

由于双语词典的翻译以词目和例证为主要研究对象,更关心的是“对应词”或“对等语”,而可比语料库在译者风格(如译者的理性、风趣、语言倾向等)或译语风格(如简约化、明朗化、规范化等)方面的研究对双语词典编纂相对来说意义不大。比较之下,平行语料库可以提供最直接的对应语,而且信息丰富、获得便捷,不易受编者个人经验的影响,在双语词典的翻译方面作用尤为突出(详见本章6.2.3)。

6.2.2.3 我国平行语料库的研发

近年来,为了研究机器翻译或编纂双语词典,建立平行语料库已成为一种趋势。在我国,很多研究机构都在单语语料库研制技术的基础上建设平行语料库。我国的单语料库起步较早,中国国家语料库工程始于1990年代初,初始容量为5千万词;由广东外语外贸大学桂诗春和上海交通大学杨惠中教授于1997年4月主持建成了中国学习者英语语料库(CLEC),容词量为100万。而我国最早应用于双语词典编纂的《CONULEX-ID英汉语言资料库》,1994年就开始由商务印书馆和南京大学双语词典中心共同研发,基于该语料库编写的词典《新时代英汉大词典》已于2004年问世[1]。2004年3月,台北成立了“词典及语料库研究中心”,成为台湾地区第一个词典学组织,定位为台湾地区相关学者、专家进行专业学术交流的组织,并作为词典、语料库相关资料的汇集处。(泰元,2004:28)北京大学计算语言学研究所等也正在建设双语平行语料库。去年,由王克非(2004:1)负责的北京外国语大学中国外语教育研究中心的“双语平行语料库的创建及其应用研究”课题已经结题,初步建成了目前世界上最大的双语平行对应语料库,也是国际上设计汉语的最大的双语语料库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈