基于语料库的翻译语言研究

时间：2023-04-07 理论教育版权反馈

【摘要】：较早使用语料库系统研究翻译语言的是M.Baker。基于以上事实，本章要总结汉语翻译语言研究10年来的发展状况，回顾既有研究成果，并展望其发展前景。这一倾向在语料库语言学的催动下得以加强。随着平行语料库的创建和应用，翻译语言研究开始获得经验数据的支持，该领域研究才得以蓬勃发展。

较早使用语料库系统研究翻译语言的是M.Baker。Baker(1993，1998)认为，翻译语言大都存在下列共性:简化(语言使用简单)、外显化(原文隐含的内容在译文中被明示出来)、规范化(译文尽量向目的语的某些典型样态靠拢，缺少目的语使用的多样性)和趋同性(即翻译文本共有上述特征)。

Baker的研究是开创性的，但也受到不少质疑。批评者认为，Baker的研究主要基于类比语料，不关心源语对译语的影响(Hansen & Teich，2001；吴昂、黄立波， 2006；黄立波、王克非，2006)。另外，Baker的研究重点是语言表层特征(如词长、句长、词汇密度等)，没有从更具语言个性的层面上探讨翻译语言。鉴于此，本章将从词性分布、词汇组合和结构容量这些颇具汉语个性的层面上描写和分析翻译语言。

翻译是社会活动，又直接表现为言语活动。译者对源语的释义，以及影响翻译过程的各种因素都会在语言上表现出来。所以，翻译研究一贯重视语言问题。传统译论多在探讨翻译技巧时谈翻译语言，关注局部的、微观的语言使用现象。而在当代，译界已把翻译语言视为相对独立的符号系统和变体，其整体性和宏观特征越来越受到重视。在国外，翻译语言的系统描述和分析20年前就已经出现；而在中国，它的出现迄今不过10年。主要原因是:系统分析汉语翻译语言需要大型平行语料库的支持，而成规模的外语汉语平行语料库2000年后才开始创建和使用。基于以上事实，本章要总结汉语翻译语言研究10年来的发展状况，回顾既有研究成果，并展望其发展前景。

在国外，随着描述翻译学的兴起，对翻译语言特征的系统描写出现在20世纪80和90年代，译语语言的特征开始受到关注，如衔接手段的使用等(Blum-Kulka， 1986)；有研究指出，翻译语言不可避免会受源语文本的影响，文体上也更标准化(Toury，1995)。这一倾向在语料库语言学的催动下得以加强。根据Laviosa (2004)所言，1993年Baker首次提出基于语料库的翻译研究，认为语料库语言学能为翻译研究提供经验依据，为翻译研究提供新的方法；1990年代后半期翻译研究开始转向语料库语言学，语料库翻译学渐成风气，相关的理论和方法渐趋成熟。比如，Baker(1993)和Chesterman(2004)等学者基于语料库，运用数据统计方法开展翻译语言研究，发现了目标语、源语和原创语言间有规律的、普遍性的差异，即翻译共性假说，确立了语言分析在翻译研究中的地位，同时也将语料库分析方法确立为翻译语言研究的主要方法。

在我国，2000年前很少有人把翻译语言作为语言变体进行系统描述性分析。随着平行语料库的创建和应用，翻译语言研究开始获得经验数据的支持，该领域研究才得以蓬勃发展。表6-1显示的是十年来我国学者在汉语翻译语言研究方面发表的主要论文数量，可以看出，2010年之前，翻译语言研究呈现增长趋势，总体说来进展平稳。

表6-1 汉语翻译语言研究的论文(2004—2013；根据CNKI检索)

此外，近年来陆续出版了一批专著探讨汉语翻译语言，作者如王克非等(2004)、胡开宝(2011)、王克非(2012)、朱一凡(2011)、王青(2011)等。其中，王克非等著《双语对应语料库:研制与应用》(2004)是我国第一部较完整探讨双语对应语料库创建、检索和研究的专著，该书的第四部分专门探讨翻译语言，开启了系统分析汉语翻译语言的序幕。胡开宝(2011)则总结了多年双语语料库制作、检索和研究的成果和发现，展示了翻译语言分析的语料库途径和方法。王青(2011)则使用译者兼作者构成的类比语料集中探讨译者风格，为译者风格研究提供了新的思路。

6.1.1 汉语翻译语言研究:数据来源和分析方法

语料来源

汉语翻译语言研究使用可类比语料才能观察翻译文本和目标语原创文本间的异同；同时，还需要使用翻译语料库，以便弄清翻译与原创文本间存在差异的原因。因此，汉语翻译语言研究重视平行语料库的建设。最早建设的大型双语平行语料库是北京外国语大学(从2001年开始创建)的GCEPC，之后还有规模不一、类型各异的翻译语料库开始建设，此外还有少量的类比语料库。目前已建成的语料库主要有以下三个类型:

(1)双语语料库:GCEPC(General Chinese-English Parallel Corpus)；ZCTC (ZJUCorpus of Translational Chinese)；ECCC(English-Chinese Classics Corpus)；ECPCSP(English-Chinese Parallel Corpus of Shakespeare’s Plays)；LPCC(Literature Parallel Corpus for Children)以及各种多译本语料库；

(2)单语语料库:LCMC(The Lancaster Corpus of Mandarin Chinese)；PDC (People’s Daily2000Corpus)；CCL(Corpus of Chinese Language)；

(3)类比语料库:CCTFC(The Contemporary Chinese Translated Fiction Corpus)

其中，可用于现代汉语翻译语言研究且具有一定规模的语料库有三个:GCEPC(北外通用英汉对应语料库)；ZCTC(浙大汉语译文语料库)；ECPCSP(莎剧英汉平行语料库)。另外还有很多临时制作的语料库，以及一些专门收集汉语翻译语言的语料库如CCTFC。各类语料库的描述见表6-2所示:

表6-2 近十年来翻译语言研究中常用的语料库(根据收集的论著统计)

从表6- 2可以看出，只有少数平衡库(GECPC和ZCTC)用于汉语翻译语言研究，数量虽少，但规模最大，抽样也最合理。创建平衡的平行语料库比较困难，因为翻译文本不像原创文本那样有足够丰富的体裁和足够大的语料总体可供抽样。在20世纪的大部分时间里，翻译的主体是文学，双语库的语料来源也主要是文学，这影响到语料的平衡性。此外，越来越多的研究开始注重类比方法，因为使用单语语料如LCMC作为参照进行类比更能发现翻译语言的特点。当然，也有对应语料库本身是双向的，如GCEPC本身就能提供用于类比的子库。

类比/比较方法

汉语翻译语言成为研究焦点，有多种原因。首先，它是第三代码，是介于外语和目标语汉语之间的中介语，具有翻译语言的一般特征且能证明翻译共性的存在；其次，它在现代汉语发展过程中扮演过十分重要的角色。这意味着汉语翻译语言研究需要进行类比和历时对比。从已有的研究看，以汉语原创文本作为参照，可以发现汉语翻译语言与汉语原创语言发展之间的关系；以源语文本为参照，可以比较不同的译本，观察不同译者在语言使用上的差异(王青，2011)。历时研究主要是基于汉语历时语料，观察翻译在汉语历时发展过程中扮演的角色(夏云，2013)。

研究数据的统计和分析

汉语翻译语言研究中使用的语料库统计手段大致有以下几种。①标准化类符/形符比(STTR)，词汇密度:标准化类符/形符比是常用的分析手段，能够反映文本中词汇使用富于变化的程度，Word Smith词表工具可以实现这一功能。目前的研究如Wang & Qin(2008)、秦洪武、王克非(2009)、Xiao(2010)、肖忠华、戴光荣(2010)等都使用过这些方法。也有研究使用词汇密度，即不包含功能词的统计方法，统计数据能反映文本的信息量(徐欣，2010)。②句长和句段长度:有研究认为句长不如句段长度更能充分反映汉语的特点，更有助于揭示汉语翻译语言的特殊性(王克非、秦洪武，2009；秦洪武，2010)。③主题词分析(Keyness):属于微观语言研究内容，如使用Word Smith中的主题词分析工具，可以将对比库和参照库中含有词频信息的词表进行比较，探索汉语翻译语言的特点(王克非、秦洪武，2009)。

此外，还有很多研究使用更具个性的研究方式。如胡显耀(2010)通过因子分析发现，汉语翻译小说文本的特性集中表现在虚词频率更高、句子更长、高频词使用更集中，等等；Wang & Qin(2013)则使用因子分析观察反映汉语翻译语言特点的句段长度问题，认为句段偏长不符合汉语目标语的使用规范，故应视句段长度为评估汉语翻译语言的重要指标。

从目前使用的数据统计和分析看，用于汉语翻译语言分析的检索和统计工具还不够丰富，更缺少特别适合汉语语言分析的工具。此外，有不少研究使用的统计方法老套，只是统计对象有些许差异，难以获得真正有意义的发现。

6.1.2 汉语翻译语言研究的主要内容

在研究汉语翻译语言的41篇论文中，有8篇属理论研究。总的看来，前期的研究多为翻译共性的理论介绍，后期的研究转向汉语翻译语言宏观和微观特征的描述。

理论研究

在理论研究方面，对翻译共性的系统介绍和阐发最早见于王克非(柯飞， 2005)、胡显耀(2005)等的研究。虽然有的研究发现对翻译共性构成质疑，但总体上看，验证共性的研究多，关注汉语翻译语言个性的研究少。不过，近年来，有个别研究开始重视一些与汉语发展相关的问题，如廖七一(2011)指出，20世纪早期翻译语言从文言向白话过渡，顺应了白话文发展的时代要求，翻译在汉语白话文发展过程起了一定的作用。

翻译共性研究

基于语料库的翻译语言研究重视翻译共性的探讨。在找到的24篇相关论文中有19篇使用经验性数据探讨汉语翻译语言中的翻译共性。其中，显化是主要内容，另两个热点是简化和常规化(规范化)，但涉及实词搭配组合的研究相对较少，研究成果尚难如人意。此外，由于整齐化(leveling out)需要多变量多文本的分析才能显示出来，且较难统计，这方面的研究目前还比较少。如表6-3所示:

表6-3 翻译共性研究的主要内容

从表6-3可以看出，有关翻译语言共性的研究中，显化是主体，其次为规范化和简化，关于整齐化的研究偏少。

汉语翻译语言的词汇句法特征

词汇-句法特征主要指对微观翻译语言特征的描述，涉及特定句式的使用，如so...that的汉语对应结构(秦洪武、王克非，2004)，“把”字句(胡开宝，2009)和“被”字句(胡显耀、曾佳，2010)，连词使用(许文胜、张柏然，2006)，等等。这些研究的对象具体、微观，有助于发现翻译语言的非常规应用特征。也有研究关注汉语结构的封闭特征，并提出与之相关的容量问题，指出前置修饰语的使用与句段长度以及与可读性间的相关性(秦洪武，2010)。当然，还有研究(黄立波，2008b)开始注意汉语翻译语言篇章组织上的特点，如衔接手段的使用，等等。研究所涉的语言细目如下:

词级:名词、连词；人称代词；词汇密度/常用词；词汇特征；因果关系连词；习语/词簇；人称代词主语；

句法、篇章层级:“把”字句；“被”字句；so...that结构；复合定语/结构；结构容量；句段长度；语法标记；话语重述标记。

可以看出，汉语翻译语言研究的主要内容是功能词类和句法结构，层次分明，表明翻译语言研究业已成为相对稳定的独立研究领域了。

6.1.3 主要研究发现

基于翻译语料库的汉语翻译语言研究拓展了翻译共性假设对汉语翻译语言的解释力；还有研究使用语言学理论或其他理论探讨翻译语言使用中的微观问题。本节评述只涉及这些研究中的主要发现。

翻译共性研究主要涉及翻译语言在频率、词汇分布、类符/形符比、词汇密度、句子长度以及搭配上的表现，如胡显耀、曾佳(2009、2011)、刘泽权、陈冬蕾(2010)、王克非、胡显耀(2011)等的研究。王克非、胡显耀(2008)使用GCEPC研究汉语翻译和汉语原创语言的总体差异，指出，汉语文学翻译语料与文学原创汉语相比，表现出明显的简化、显化和范化特征；而且，无论是文学还是非文学语料，翻译汉语与原创汉语相比，具有词语变化度偏低、词汇密度偏低、虚词和指代方式显化、常用词频率增加等特征。

可喜的是，不少研究并不止步于验证共性假设，而是试图从多个角度审视这一假设。比如，黄立波、王克非(2006)等就曾指出，用语料库研究翻译普遍性(或共性)具有优势，但还需要更多的语料库研究来加以验证；而且，翻译普遍性是假设而非规律，它可能只是翻译文本的一些倾向甚或是可能性。

更多的共性研究集中在某类文本或者某一论题，如黄立波(2008a)研究人称代词主语在翻译语言中的使用，认为英译汉过程中，人称代词主语语际转换表现出源语迁移现象，语内类比显化突出。在常规化研究方面，夏云(2013)指出，常规化与受源语影响产生的反常规特征并存，体现了翻译的杂合性。另外，王青(2011)基于创作翻译类比语料库发现，英语源语对汉语译文有一定的干预作用，但又需要使用合乎译语规范的译法加以平衡。

使用语料库手段研究汉语翻译语言还涉及两个重要问题:汉语翻译语言体现了哪些“汉语”特点？使用什么手段来捕捉这些特点？十年来，随着类比语料库建设规模不断扩大，随着检索和统计手段的渐趋成熟，这方面的研究进展迅速，表现在以下三个方面。

胡显耀(2010)尝试使用类似于Biber的多语言特征变量设置方法，基于GCEPC，通过因子分析探索能够说明汉语翻译语言特点的语言特征。研究指出，汉语文学和非文学翻译语言语法显化程度(虚词比例)高；同时，翻译语言句子更长，更集中地使用常用词(高频词)、习惯用语、被字句、把字句以及成语，等等。而且，研究发现，汉语文学翻译与文学原创的差别大于非文学翻译与原创之间的差异。

秦洪武、王克非(2008)基于GCEPC类比汉语原创文本，发现英译汉文本语言的标准化类符/型符比较高，句段偏长。主要原因是汉语翻译语言扩大了汉语某些结构式的容量，导致汉语翻译语言不如汉语原创语言易读、易解。进一步分析发现，汉语翻译语言的整体特征虽然与汉语原创语言一致，但前者结构容量扩增，句子偏长，因此不完全支持规范化假说(秦洪武、王克非，2009)。此外，研究显示，句长分析不适合描写汉语翻译语言，句段长度和结构容量更能反映汉语翻译语言的个性特征。因此，运用积极的语言手段调控结构容量有助于提高汉语翻译语言运用质量(秦洪武，2010)。

研究译者风格可以比较同一源文的不同译本。如胡开宝、朱一凡(2008)运用语料库方法，对莎剧《哈姆雷特》梁实秋译本和朱生豪译本中三种显化现象进行定量分析，探讨译者的语言风格。译者风格还可以通过类比译者自身的翻译和创作来研究。比如，王青(2011)、刘立香、吴建平(2012)使用译者兼作者的类比语料研究译者风格问题。这些研究发现，与原创文本相比，翻译文本表现出一定的简化趋势，但译作词汇使用不受源语词汇密度和体裁的直接影响。研究还发现，翻译文本与汉语原创在词类使用上基本一致，但翻译语言在词汇使用上表现出中介语特征，说明翻译语言受英语源语和译者风格的双重影响。

6.1.4 主要问题和未来的发展

在语料库翻译学蓬勃发展的同时，语料库研究方法也在经受越来越多的质疑。在汉语翻译语言研究方面，也确实存在不足。首先，语料库语言描写常用的句长计算、类符/形符比等计算工具不能满足多样的研究需求，更不一定适合描写汉语；其次，翻译语料库不太可能实现严格语言学意义上的平衡，翻译语料库本身的特殊性和各类翻译库间的差异化没有得到充分的发展。再次，语料库研究方法、工具和研究内容趋同，重复性研究偏多，开拓性研究缺乏。以上问题都是在发展中遇到的，说明该领域活力十足，正在酝酿、寻求更大的突破。

十年来，众多学者辛勤耕耘，汉语翻译语言长期以来缺乏系统描述和分析的状况因之大为改观。可以想见，汉语翻译语言研究会为翻译策略和技巧的应用及研究提供必要的经验性数据支持，而且，对比语言分析的结果也将深化我们对汉语语言特征的认识，推进汉语语言研究。简言之，基于语料库的汉语翻译语言研究依然拥有广阔的发展前景。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈