首页 理论教育 论利用互联网搜索引擎协助翻译的科学性和可行性

论利用互联网搜索引擎协助翻译的科学性和可行性

时间:2022-04-03 理论教育 版权反馈
【摘要】:论利用互联网搜索引擎协助翻译的科学性和可行性——兼与朱明炬先生商榷毋庸置疑,有效利用互联网资源是现代翻译工作者必须掌握的重要技能之一。朱和谢在文中推荐的互联网搜索引擎检索库,主要是指第一类。互联网搜索引擎可按一定方式进行检索和索引。由不具备这一功能的互联网搜索引擎提供词频统计资料,其分析结果的准确性将会大打折扣。

论利用互联网索引擎协助翻译的科学性和可行性

——兼与朱明炬先生商榷

毋庸置疑,有效利用互联网资源是现代翻译工作者必须掌握的重要技能之一。在这一技能的运用上,有些翻译界的同仁已开展大胆尝试并取得了一些经验,比如2003年,朱明炬和谢少华二位先生(后简称“朱和谢”)曾在《上海科技翻译》第1期上以“充分利用搜索引擎,准确地道的英译词语”(朱明炬等2003:59—62)为题,详细介绍了利用搜索引擎协助翻译汉语词汇的方法。他们介绍的有些方法确实可以解决一些翻译中的实际问题,如利用搜索引擎查找在线词典和词库,了解所译材料的背景知识等。

然而,在肯定他们成绩的同时,笔者仍心存疑虑:根据朱和谢的阐述,利用互联网搜索引擎提供的语料真能指导翻译的全过程(包括译前文本的理解、译中的词语表达和译后的检查校对)吗?这种方法科学吗?可行吗?值得推广吗?笔者想针对这些问题与国内学者广泛交换意见,以便进一步完善这一领域的研究工作。

朱和谢在文中多次强调这一观点:“互联网相当于一个免费的巨型语料库,搜索引擎便是开启这个语料库的‘钥匙’。”其实,朱和谢想推广的做法是:把互联网搜索引擎检索库当成语料库,把搜索引擎当作语料库索引工具,以指导翻译的全过程。笔者将先分析这一做法的科学性和可行性,再就朱和谢文中的几个技术性问题阐述笔者的建议。

1.互联网搜索引擎检索库不是语料库

搜索引擎检索库的使命就是提供网上最全和最新的资料查询,以促进全球信息的交流。搜索引擎检索库按其工作方式可分为三类:全文搜索引擎(Full Text Search Engine)检索库、目录搜索引擎(Search Index/Directory)检索库、元搜索引擎(Meta Search Engine)检索库。朱和谢在文中推荐的互联网搜索引擎检索库,主要是指第一类。这类搜索引擎检索库,均通过互联网提取各个网站的信息(以网页文字为主),来建立自己的检索数据库,并根据使用者的需要,提供各种语言的文字材料。这类搜索引擎检索库在国外较知名的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内有百度(Baidu)。就其规模而言,有些互联网搜索引擎检索库可以堪称“世界巨型”。以世界著名网站Google为例,目前收录的网页数就达30亿之多,其收录的词汇量远远超过我们的想象。与之相比,被称之为世界最大语料库的“英语文库”(Bank of English,亦称语料档案:archive)就显得太“渺小”了:据2003年4月30日该网站(http://www.cobuild.collins.co.uk/boe_info.html)公布的统计数据显示:目前该库仅有45亿词。

一般说来,搜索引擎检索库收集的语料均为现实生活中真实的语料,且按一定的方式储存。互联网搜索引擎可按一定方式进行检索和索引。为此,朱和谢,可能还包括国内其他同仁会认为:把搜索引擎检索库当成语料库,把互联网搜索引擎看成语料库索引工具的想法和做法,似乎合情合理。

其实,这种想法和做法均缺乏科学依据的有力支持。从语料库的定义上看,语料库是指在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本(杨惠中2002:8)。在语料库建设诸多可控因素中,代表性是语料库的核心和灵魂,它直接关系到在语料库基础上所作出的研究及其结论的可靠性和普遍性。语料库的代表性集中表现在语料库代表的总体、语料库的规模和语料库的内容的代表性上。互联网搜索引擎检索库虽收集了真实的语料,但其收集方式是以全和新为标准,根本不考虑语料的代表性和随机性。因此,搜索引擎的规模大固然能从一定程度上弥补语料库内容上的不足,但就收集语料总体和内容的代表性而言,仍不符合语料库建库的基本要求。即使降低评价标准,不考虑互联网搜索引擎检索库的资料检索方式,这种检索库也只能看成是网络语言的资料库,而不是语料库。

2.互联网搜索引擎不是语料库文本的索引工具

一般说来,互联网搜索引擎的检索方式分两类:全文检索和目录检索。其中,全文检索用途更广一些。如果把全文检索方式与语料库的文本索引方式进行对比,可以看出:互联网搜索引擎的方法过于简单,与语料库无法相提并论。语料库常用的索引工具有TACT、Microconcord、Wordsmith等,常用的方法有:KWIC(key words in context:语境中的关键词)索引法、搭配词分析、词丛统计(word cluster)、主题词提取(key word list)、词图(plot)、词语形式(pattern)统计等。如果进一步对比分析,我们会发现:其实,互联网搜索引擎借用了语料库中的KWIC,而KWIC仅为语料库索引工具中最简单和原始的方法之一,而不是一种语料库文本索引工具。

此外,即使想把互联网搜索引擎当成语料库文本索引的简易替代工具加以应用,它仍缺少一个简单的技术环节:语料库的削尾处理(lemmatization)。削尾处理是指把同一个单词的不同词形的出现频率都归并到词根中,如do,does,did,done和doing的出现频率都归到词根do中,然后进行词频统计。它直接关系到词汇统计的准确性。由不具备这一功能的互联网搜索引擎提供词频统计资料,其分析结果的准确性将会大打折扣。

由此看来,把互联网搜索引擎检索库看成语料库,把互联网搜索引擎当成语料库索引工具的做法,缺乏科学依据。互联网搜索引擎检索库充其量也只能算得上一个收集网络语料的资料库,搜索引擎只能勉强看成是语料库索引工具中,欠完善的、简单的和原始的方法之一。

以下笔者将就朱和谢文中的几个技术性问题阐述几点建议。

3.互联网搜索引擎提供的词频和词频比较,不能看成翻译选词的唯一标准

从翻译理论上分析,目的语中普通真实语言的词频(注:这一统计项也适用于短语和常用搭配,本文仅以词项为例加以分析)大小一般不作为译文的选择标准,即高频词不一定适合语境。正如我们不能因为“cancer”比“carcinoma”在普通英语真实环境中的使用频率高,就在英译时总挑选“cancer”作为“癌”的对应词一样。因此,对于译文词汇的挑选,我们一般不完全依靠词频的定量分析,而是根据语境选词。把互联网搜索引擎提供的词频和词频比较,作为翻译选词唯一标准的做法,本身就缺乏科学依据。

如果我们确实需要挑选同一语境中,哪一种表达方式更常用,我们至少还要参考它们的分布率和覆盖率。分布率是指某个词在不同领域或体裁中出现的频率。覆盖率指的是从频率词表上按频率次序选取的一定数量的单词,确定它们在全部语料中所占的百分率。笔者以我国自行研制的JDEST(交大科技英语语料库)实例解释词频、覆盖率和分布率在选词中的统计学意义。

如表1和图1所示,根据词频、覆盖率和分布率三者的统计关系可以分出三类词:

1)功能词 频率和分布率极高。功能词主要是介词、代词、连词等,如表1中所列的“besides”。

2)专业术语 某个领域词频极高,但跨一个领域出现的频率就可能非常低,有时根本不出现,即分布率非常低,如表1中所列的“annulus”。

3)次高频词 这类词介于1)和2)之间。这类词词频很高,但没有1)类高,分布率却比2)高得多,如表1所列的“wait”。

表1:频率相同的4个词实例

img97

(本表引自杨惠中主编的《语料库语言学导论》,上海:上海外语教育出版社,2002,第25页,已征得作者同意。)

img98

图1:三类词的统计特征

(本表引自杨惠中主编的《语料库语言学导论》,上海:上海外语教育出版社,2002,第26页,已征得作者同意。)

由此可以看出,词频的统计会因分析的领域不同,而得出不同的结果。搜索引擎中提供词频和词频比较,不能看成翻译选词的唯一标准。如果确实需要挑选同一语境中的常用表达方式,至少还应该考虑到它们的覆盖率和分布率。

4.慎用由搜索引擎提供语料以协助翻译的方法

朱和谢文中强调:利用搜索引擎可以找出准确地道的英译词语。由于他们主要讨论汉语词汇的英译问题,笔者就以英语为例,首先分析互联网搜索引擎提供英语语料的“地道性和正确性”。

从理论上讲,地道英语的标准应该是:(1)英语本族人所使用、所能接受的英语;(2)英语本族人感到自然的英语;(3)某英语地区、英语社会集团的普遍用语(黄和斌等,1998:61)。Walt Wolfram认为(1991:12)这种地道英语的表现形式大致可以分为三类:正式标准英语(formal standard)、非正式标准英语(informal standard)、英语地域方言(vernacular dialects)。正式标准英语一般具有规定性、权威性、统一性、局限性、部分陈旧性等特性。非正式标准英语主要表现为广泛性、超前性、部分非规范性、认识的多元性等特性。

互联网搜索引擎提供的英语语料大致包括:公司、企事业单位主页,正式出版的报纸、小说、科技文献、课本、个人主页、剪贴板、论坛的交流记录等英文文本。有些使用的是正式标准英语,如公司、企事业单位主页,正式出版的报纸、小说、科技文献、课本等英文文本。有些可能使用的是非正式标准英语、地域方言,有的甚至是洋泾浜,如剪贴板、论坛、个人主页的文本、聊天记录等。利用互联网搜索引擎提供的语料,往往是这些内容的“大杂烩”。这种“大杂烩”由于包含了洋泾浜和其他不规范的语言,充其量只能算作“地道的网络英语”。这种英语离“地道英语”的标准尚有一定的差距,离正式标准英语的差距太大,其正确性更是无从谈起。因此,利用这种网络英语“指导”(笔者建议用“协助”)我们的翻译,确实比较“危险”,应用时需倍加小心。

此外,在利用搜索引擎提供语料以协助翻译的具体操作过程中,检索结果对关键词检索式的依赖程度非常大。如果输入合适的关键词检索式还可能得到正式标准英语和非正式标准英语的“大杂烩”(当然,其语言是否地道和正确只好另当别论)。如果输入的关键词检索式本身就存在问题,所提供的语料作为地道和正确英语的样本指导翻译实属无稽之谈。例如:如果把当成英语笑话的洋泾浜翻译“Go a head!”(去你个头!)输入Google进行搜索,一般会得到11 400项结果(如表2所示)。我们能够由此推断“Go a head!”(去你个头!)已经或正成为地道和标准的英语表达法吗?能用它来指导我们的翻译吗?

表2:Google搜索现代洋泾浜英文统计表

img99

注:(1)在Google上的搜索时间为2003年4月28日;

(2)搜索检索式均为表中括号内的英文加双引号

如浏览大部分网页内容,我们会发现:Google提供的这类网页主要包括:各种网站内的论坛(讨论留言区)、个人主页(如http://charlotte.ucsd.edu/users/wrao/research.htm)、新闻评论(如http://www.dfsports.com.cn/data/news/2002/12/27/3819.html收录2002-12-27题为“上海女足有位‘老孙’”的新闻多次采用“Good good study,day day up!”这一用法)等。

由此看来,利用搜索引擎提供的语料,是否地道和正确需要仔细评判。如用来协助翻译的做法需特别谨慎,其技术问题和可操作性有待进一步研究。

5.利用搜索引擎检索库协助翻译汉语新词时应分类区别对待

汉语新词是一种复杂的语言现象,产生新词的方式很多,有构词、借词、仿照词、旧词的复活、作家新词、派生新义、词类转换、词缀新义、潜在词、方言导入、外来词吸收、广告效应、科技的“催生”、词汇的衍生等等(王德春1983:320;刘永红2002:38—40)。

汉语新词一般分为三类:一般意义上的新词语、社会通用和进入共同语的新词语、规范化的新词语(李建国1998:32—33)。

朱和谢虽然以“充分利用搜索引擎,找出准确地道的英译词语”为题撰文,但如果仔细分析他们所举实例,我们不难看出:他们撰文的主要目的是想阐述利用互联网搜索引擎协助翻译汉语新词的方法。不可否认,对于新词语的翻译,如果仔细设计检索式,通过这种方法获得的语料在一定范围内,仍具备一些参考价值。但应用时须倍加小心,分类区别对待。

1)一般意义上的新词语 它们每时每刻都在涌现,处于极不稳定状态。有的可能留步,进入共同语;有的可能仅用一次,昙花一现;有的只存在于有限的范围内;有的可能隐而复现,重新启用。这种新词语是泛时的,涵盖极广而不可穷尽。因此,利用互联网搜索引擎检索库查找和协助翻译的可能性不大。即使搜索到了为数不多的相应表达法,使用时也应倍加小心。

2)社会通用和进入共同语的新词语 它们已适应交际需要,并迅速扩大使用范围,在社会上广泛流行开来,已经或正在进入民族共同语的领域。与一般意义上的新词语相比,这些词语已约定俗成,信息量大、使用范围广、存在时间长。在利用互联网搜索引擎查找和协助翻译汉语新词时,可能会得到一些相应的翻译方法,也可能有多种并存。这时,译者可以借鉴互联网搜索引擎提供的某些好的表达法协助翻译,切忌单凭出现频率论取舍。在利用互联网搜索引擎协助翻译方面,参考意义相对较大的属这类新词,但因为可控因素太多,译者需谨慎。

3)规范化的新词语 它们已进入共同语书面语言中。它们的书写形式和读音明确,意义和用法固定,构词能力强,是全民族共同使用的标准词语。在翻译时,普通的纸质词典或电子词典均已收录。一般不需利用互联网搜索引擎检索库协助翻译。如果的确没有,按朱和谢文章介绍的方法,可以通过互联网一些新词语网站在线查阅。如果获得多种版本的翻译方法,译者需根据具体语境自己挑选,切忌单凭出现频率论取舍。

总体看来,利用互联网资源协助翻译是翻译研究领域出现的新生事物。在技术和方法上存在不完善的地方可以理解。但是,我们应该本着科学和务实的态度看待新生事物。在利用互联网搜索引擎协助翻译时,我们应该注意:把互联网搜索引擎检索库当成语料库,把互联网搜索引擎当成语料库索引工具,以及仅根据搜索引擎提供的词频选词的做法均缺乏科学依据。在翻译过程中,借鉴搜索引擎提供的语料须谨慎,在协助翻译汉语新词时应分类,区别对待。

参考文献

Wolfram,W.,1991.Dialects and American English[M].Washington:Prentice-Hall.

黄和斌、戴秀华,1998,论地道英语的语法性[J],《外国语》第3期。

李建国,1996,新词新语研究与辞书编纂[J],《辞书研究》第3期。

刘永红,2002,现代汉语新词[J],《桂林师范高等专科学校学报》第1期。

王德春,1983,《词汇学研究》[M]。济南:山东教育出版社。

杨惠中,2002,《语料库语言学导论》[M]。上海:上海外语教育出版社。

朱明炬、谢少华,2003,充分利用搜索引擎,准确地道英译词语[J],《上海科技翻译》第1期。

补释1:更正朱和谢文中的统计错误:“small and medium-sized businesses”搜索结果为:150 000项,“small and medium-sized enterprises”为204 000项。他们的推断“有差别,但不构成多大的统计学意义”。笔者统计结果为:X2=8.237>6.63,P<0.01。说明两者间存在极其显著的差异。此外,笔者曾于2003年4月28日按他们提供的方式搜索,所得结果类似:“small and medium-sized businesses”:183 000项,“small and medium-sized enterprises”为:250 000项,经统计,X2=10.367>6.63,P<0.01。也说明两者存在极其显著的统计学差异。可见他们文中“无统计学差异的结论”纯属主观臆断。

补释2:JDEST语料库:该语料库由上海交通大学建于20世纪80年代,后经几次扩建。获取表1和图1时,该库包含4 000 000词的连续文本(running texts)。它所包括的题材领域有化工工程、土木工程、航空工程、生物工程、机械工程、造船工程、电气工程、计算机科学、管理科学、物理学、医学、教育学、心理学、社会学等30个专业领域。文本的体裁形式有学术论文、摘要、引语、研究报告、专利书、科学教科书等(卫乃兴,2002,词语搭配的界定与研究体系。上海:上海交通大学出版社)。

载《上海科技翻译》2003年第4期

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈