首页 百科知识 翻译研究中语料库的种类

翻译研究中语料库的种类

时间:2022-03-05 百科知识 版权反馈
【摘要】:译学研究语料库有广义和狭义之分。一般说来,用于翻译学研究的语料库主要有平行语料库、可比语料库、翻译语料库和口译语料库等。目前,学界普遍认为平行语料库是指收录某一源语语言文本及其对应的目的语文本的语料库,不同语言的文本之间构成不同层次的平行对应关系。多向平行语料库收录的语料为一种语言的源语文本和译自该文本的两种或两种以上语言的目的语文本,如前文所述的《圣经》多语语料库。
翻译研究中语料库的种类_语言学与翻译

译学研究语料库有广义和狭义之分。广义的译学研究语料库是指可应用于译学研究的语料库,如双语语料库和多语语料库。狭义的译学研究语料库是指专门为译学研究而建设的语料库,如双语平行语料库和翻译语料库等。一般说来,用于翻译学研究的语料库主要有平行语料库、可比语料库、翻译语料库和口译语料库等。这些语料库所收录语料的组成和特性不同,可用于语料库翻译学的不同研究领域。

一、平行语料库

(一)平行语料库的定义

关于平行语料库的定义,一直存在分歧。Stig Johansson (1998)认为平行语料库是收录具有可比关系的两种语言文本的语料库。不过,Mona Baker (1998)则主张平行语料库收录的文本是A语言文本及其B语言译本。较之于前者,后者更为学界接受。 目前,学界普遍认为平行语料库是指收录某一源语语言文本及其对应的目的语文本的语料库,不同语言的文本之间构成不同层次的平行对应关系。王克非(2004)指出平行语料库是由源语文本文本及其平行对应的译语文本构成的双语语料库。

(二)平行语料库的种类

根据语料所涉及语种的数量,平行语料库可分成双语平行语料库和多语平行语料库。前者由构成翻译或对应关系的两种语言文本组成,后者则收录一种语言文本和该文本的两种以上语言的译本。按照语料平行对应的方向,平行语料库可分为单向平行语料库、双向平行语料库和多向平行语料库。

单向平行语料库是指所收录语料均为一种语言的源语文本及其译成另一种语言的目的语文本。如:Dorothy Kenny研制的德语—英语文学平行语料库(GEPCOLT) 、上海交通大学胡开宝教授负责建设的莎士比亚戏剧英汉平行语料库和汉英会议口译平行语料库。

双向平行语料库所收录的语料由A语言文本和其B语言译本,以及B语言和其A语言译本组成。以英汉双向平行语料库为例,该语料库的全部语料既包括英语文本及其汉语译本,也包括汉语文本及其英语译本,如英语—挪威语平行语料库(ENPC) 。另外,北京外国语大学王克非教授主持研发的通用汉英对应语料库也是双向平行语料库。该语料库由翻译文本库、百科语料库、专科语料库和对译语句库等四个子库组成。其中,翻译文本库由两大部分语料组成:英语文本及其汉语译本;汉语文本及其英语译本。

多向平行语料库收录的语料为一种语言的源语文本和译自该文本的两种或两种以上语言的目的语文本,如前文所述的《圣经》多语语料库。

(三)语料的平行对齐

平行语料库区别于其他语料库最典型的特征是语料之间的平行对齐。平行对齐是指源语文本和目的语文本具体单位之间的对应关系或翻译关系。根据对齐的语言层面,平行对齐分为词汇、语句和段落等层面的对齐。对齐的层面越小,技术处理的难度越大。

语料之间的平行对齐处理是一项技术难度较高而且耗费时间和精力的工作。学界对语句层面对齐问题开展研究,提出了语句对齐的两种方法,即基于长度的方法和基于词汇的方法。基于长度的方法由Brown et al. (1991)和Gale&Church (1991)等最先提出。该方法依据源语文本和目的语文本句子长度之间的关联性,通过计算源语文本和目的语文本语句之间不同对齐类型的匹配概率系数来求出源语语句和目的语语句之间的对应率。不过,Brown提出的方法是以词汇为单位计算句子长度,而Gale和Church的方法所考察的语句长度是以字符为单位的。基于词汇的方法由Kay和Rosheisen(1993)提出。他们认为语句对齐可从词汇对齐入手。如果一对源语和目的语词汇反复出现在构成对译关系的源语和目的语语句中,则该对词汇为构成对译关系的词汇,即对译词汇。如果一对句子包含相当数量的对译词汇,则该对语句之间为平行对齐关系。该方法的准确率要比基于长度的方法高,但比较耗时耗力,不太适用于大型平行语料库的建设。

(四)平行语料库的应用

与其他语料库相比,平行语料库的最大优势在于能够自动呈现两种或两种以上语言的词汇、语句和语篇之间的对应关系。通过考察这些层面的对应关系,可以比较不同语言之间的异同,分析不同语言词汇之间的对应关系,探讨翻译转换规律。在这个意义上讲,平行语料库对于语言对比、双语词典编纂、机器翻译和翻译学等领域的研究都具有很强的应用价值。

1.平行语料库与语言对比研究

上世纪中叶,人们一般通过题材和体裁大致相同的两种语言文本的比较分析,探讨不同语言间的异同。不过, 由于两种语言文本之间的可比性难以确定,这种研究方法受到质疑。后来,随着翻译文本地位的上升,人们逐渐认识到翻译文本对于语言对比研究的作用。Carl James (1980)认为翻译等值是对比分析的最佳基础。Diana Santos (1996)也认为基于真实翻译的研究是对比分析的唯一好办法。鉴于此,人们开始将收录源语文本和目的语文本的平行语料库应用于语言对比研究。

Berit Løken (1997)基于英语—挪威语平行语料库考察英语和挪威语中表示可能性短语之间的异同,发现这两种语言中表示认知可能性的短语存在重大差异。英语认知情态动词近一半译自挪威语副词,另一半译自挪威语情态动词+副词结构。

Bengt Altenberg (1998)采用语料库方法考察了英语和瑞典语连接词和语句起始词的异同。研究表明,瑞典语的起始成分并非一定就是主语,其他成分也可以充当主语,而英语的起始成分通常是主语。当瑞典源语文本中的非起始连词译成英语并移位至起始位置时,并非置于句首的瑞典语主语常常置于英语译文的开头。研究还发现,位于瑞典语句起始位置的状语在英语译文中仍然居于句首位置,而并非居于句首位置的瑞典状语在英语译文中常常移至主语位置。

2.平行语料库与双语词典编纂

20世纪中叶,英、美等国学者开始利用单语语料库编纂英语词典,相继推出了柯林斯、朗文、牛津、剑桥和麦克米伦等颇受用户欢迎的英语学习词典。然而,直到20世纪90年代,学界才开始关注平行语料库在双语词典编纂中的应用。Wolfgang Teubert (2002)详细分析了平行语料库在翻译和双语词典编纂中的具体作用,指出平行语料库的应用可以有效提高双语词典的质量。李德俊(2006)认为平行语料库蕴藏着大量的双语对等翻译,能够为英汉双语词典对等翻译系统的建立提供很大的帮助。此外,双语语料库在义项分析和排序、双语词典的配例、新词新义、词典立目、文化局限词的处理与搭配研究等方面也发挥着举足轻重的作用。李德俊成功研制了基于英汉平行语料库的词典编写系统CpsDict。该系统由四个模块组成,即英汉平行语料库、英汉语句段自动对齐模块、检索和词典编写输出系统和个人语料库管理系统。另外,值得一提的是,上世纪90年代末,南京大学张柏然教授主持建设了专门基于英汉平行语料库的英汉双语词典编纂系统CONULEXID,并在应用该系统的基础上,编写出版了《新时代英汉大词典》。

具体说来,平行语料库在双语词典编纂中的作用主要表现为三个方面。其一,利用平行语料库,可以获得大量互为翻译关系的源语和目的语语句,进而可以通过具体语境的分析确定源语词目的语对应词。其二,平行语料库可以提供丰富的例证及其译文。例证是双语词典的核心部分,它主要用于阐释词目的语对应词及其具体用法。其三,给文化限定词提供地道的对应词。文化限定词的翻译是双语词典翻译的困难所在。在很多情况下,词典编纂者往往找不到合适的对应词,只好采用解释性翻译方法翻译文化限定词。利用双语平行语料库,可以给文化限定词提供地道、自然的对应词。以汉语文化限定词的英译为例,“个体户”常译作“a self-employed business” ,“三角债”译作“triangle debts”。这两个译名均不太合乎英语习惯。根据李德俊(2006)利用英汉平行语料库所作的研究,“个体户”和“三角债”可分别译成“a self-businessman”和“chain debts”。这两个译名显然要地道得多。

3.平行语料库与机器翻译

机器翻译是指利用计算机自动进行各种自然语言之间的翻译,又称为自动化翻译。机器翻译的方法有传统机器翻译和现代机器翻译之分。前者是基于规则的方法。该方法凭借语法和语义理论,分析语句的上下文搭配关系并生成相应的译文。不过, 由于技术条件的限制,采用该方法生成的译文大多为直译。 目前,许多翻译软件都是运用该方法研制而成。后者是基于语料库的方法。这种方法的主要特征是机器翻译系统能够从实现句级对齐的双语平行语料库中自动提取与有待翻译的语句相同或相近的例句,并模仿例句自动生成译文。机器翻译质量的好坏取决于计算机存储的规则和语料的多寡。计算机能够识别的语句或词汇对应关系越多,机器翻译质量就越高。因此,可以认为建设并应用大型双语平行语料库,会有效提高机器翻译质量。

4.平行语料库与翻译学研究

平行语料库对于翻译学研究的应用价值在于其语料分析和数据统计平台的作用。凭借平行语料库,研究人员可以提取两种或两种以上语言平行对齐的语料,并在分析这些对应语料的基础上,研究译者所采取的翻译策略和方法,探讨翻译规范和不同语言词汇或句式结构之间的对应关系等。贺文照、秦洪武(2004)使用北京外国语大学通用汉英对应语料库,对“dog”和“狗”之间的对应关系进行统计分析,发现无论是英译汉还是汉译英,这两个词的翻译均采用了异化翻译策略。而且,由于平行语料库具有一定的数据统计功能,研究人员可以统计分析译自相同源语文本的不同译本的类符/形符比、词频、平均句长、具体词语和句式结构的使用频率等数据,分析不同译者翻译风格的差异。另一方面,研究人员可以比较源语文本和目的语文本在词汇密度和不同词性词汇的使用频率等方面的差异,对翻译语言特征进行定量和定性研究。胡开宝、邹颂兵(2009)利用莎士比亚戏剧英汉平行语料库,对莎士比亚戏剧《仲夏夜之梦》、《哈姆雷特》、《李尔王》、《爱的徒劳》、《麦克白》、《罗密欧与朱丽叶》和《驯悍记》及其梁实秋译本和朱生豪译本的类符/形符比、平均句长、重点词汇和句式结构的使用频率进行定量分析,发现朱译本的文字总量和平均句长均高于梁译本,但朱译本的类符/形符比低于梁译本,并据此认为朱译本所用的词汇量不及梁译本。该项研究还表明梁译本中连词的使用频率高于朱译本,前者在翻译策略运用方面更趋于异化。

二、可比语料库

(一)可比语料库的定义与种类

可比语料库,顾名思义,是指所收录语料具有可比性,即其设计和结构安排能保证对语料进行不同层面比较的语料库。可比语料库可分为单语、双语或多语可比语料库。双语可比语料库或多语可比语料库一般收录具有可比性但不存在翻译关系的两种或两种以上语言的文本。这种语料库主要应用于语言对比研究。单语可比语料库是指由某一语言的原创文本和翻译文本组成的语料库。根据Mona Baker的观点,单语可比语料库由收录某一语言原创文本的子语料库和收录该语言翻译文本的子语料库组成。其中,该语言的翻译文本译自不同语言。这两个子语料库所涉及的领域、语言变体和时间跨度相似,而且库容也大致相当。如翻译芬兰语语料库(CTF) 。该语料库收录了译自英语、俄语、德语和法语等十几种语言的翻译芬兰语文本和芬兰语原创文本,库容总量为960万词,其中翻译芬兰语文本580万词,芬兰语原创文本380万词。

(二)语料的可比性

语料的可比性是可比语料库至关重要的特征。可以说,是否具有语料的可比性直接关系到可比语料库建设的成功与否。所谓可比性,实质上是指进行比较和对比描述的共同出发点或参照点。任何事物之间的比较或对比都必须具有相同的比较标准或衡量的标准,否则任何比较或对比都毫无意义。因此,语料的可比性可以理解为比较或对比语言或语言变体时所依据的共同标准。它是对两种或两种以上语言或语言变体进行比较和对比描述的出发点,是语言或语言变体共同具有的某种属性或范畴。语料的可比性通常划分为语外标准和语内标准。语外标准一般包括语料生成或出版的时间跨度、语料的影响力、作者和译者的地位、性别及其影响力等。语内标准通常涵盖语料库的库容、语料的题材、体裁、语料的翻译方向和翻译方式。Mona Baker (1995)指出可比语料库收录的两组语料应在领域、语言变体、语料长度、语料出版的时间和时间跨度等方面大致类似。如意大利学者Sara Laviosa主持建设的英语报纸文章可比语料库(A Comparable Corpus of English Newspaper Articles)由《卫报》翻译英语语料子库和《卫报》非翻译英语语料子库组成。前者收录了1994年5月19日至7月28日发表的翻译英语语料。这些语料选自《卫报》的欧洲新闻版,分别译自法语、德语、丹麦语和捷克语等语言,库容达25879词。后者所收录的语料选自于1994年5月19日至7月28日发表的《卫报》国内新闻版和外国新闻版,库容达25832词。显然,这两个语料字库在时间跨度和库容等方面比较接近,因此具有可比性。再如,葡萄牙里斯本大学的葡萄牙语可比语料库由收录安哥拉、莫桑比克等五个非洲国家葡萄牙语文本的五个语料子库组成。每个子库语料都是近30年出版的文本,库容均为60万词,其中书面语语料为58万词, 口语语料为24000词。此外,在这五个非洲国家里,葡萄牙语都是官方语言,并非母语。显然,无论是从库容和时间跨度等角度上讲,还是从葡萄牙语在非洲国家的地位角度上说,葡萄牙语可比语料库都具有良好的可比性。

(三)可比语料库的应用

双语可比语料库或多语可比语料库收录在题材、体裁和时间跨度等方面大致类似的两种或两种以上不同语言的文本,为不同语言之间的对比分析提供了重要的物质基础。此外,双语或多语可比语料库还可作为参考工具,为源语文本词语或句式结构的翻译提供较为地道、 自然的译文,从而发挥对翻译实践的指导和辅助作用。

单语可比语料库主要由某一语言的翻译语料和原创语料组成。这两类语料虽然不构成翻译关系,但相互之间具有良好的可比性。利用单语可比语料库,一方面可以对翻译语料和原创语料在词汇、句法、语义和语篇等层面的异同进行比较分析,阐明翻译语言特征,探讨特定历史、文化语境中的翻译规范。正如Mona Baker(1995)所指出的,单语可比语料库可用于“描述翻译文本特有的或反复出现的模式”并“揭示翻译文本的总体特征和翻译过程的本质”。另一方面,我们可以对影响翻译的诸因素展开研究,如译者的性格和性别对翻译的影响、不同时期诗学传统与翻译之间的互动关系等,比较分析不同译者翻译风格之间的差异。

Sara Laviosa (1996)基于英语报纸文章可比语料库,对《卫报》翻译英语语料和原创英语语料的类/形比、词汇密度和平均句长等进行定量分析,结果表明翻译语料表现出较为显著的简化和范化趋势。她还利用英语叙事散文可比语料库,分析了英译散文和英语原创散文的实义词与语法词之比、常用词与非常用词之比和平均句长,发现前者的平均句长和实义词与语法词之比均小于后者,但常用词与非常用词之比高于后者。这一结果令人信服地论证了简化这一翻译语言特征的存在。

夏云和李德凤(2008)以收录广告英译语料和英语原创语料的专题可比语料库为研究平台,从信息性、视角和文体风格角度对这两类语料进行比较,分析了广告英译语料的具体特征,阐述了可比语料库对于翻译评估的应用价值。

三、翻译语料库

翻译语料库专门收录译自一种或多种语言的翻译文本,一般不收录某一语言的原创文本,但其结构和设计往往参照已建成的收录该语言原创文本的语料库,以期与这些语料库之间形成一种类比或参照的关系。通常,翻译语料库的应用同收录原创文本的现有语料库结合起来。翻译语料库的建库目的与单语可比语料库大致相同, 旨在研究翻译语言特征、翻译规范和翻译风格等。

翻译英语语料库(Translational English Corpus,简称为TEC)是世界上最早也是影响最大的翻译语料库。1996年TEC开始建设,1999年该语料库的网站建成,用户可以免费使用该语料库。TEC收录了译自法语、德语、意大利语和汉语等十几种语言的英译传记、小说、报纸和休闲杂志文本,总库容为1000万词。TEC的建设旨在比较翻译文本和原创文本之间差异,因而该库在设计上以收录英语原创语料的英国国家语料库(British National Corpus,简称为BNC)为参照系,以实现这两个语料库之间的可比性。为方便翻译语言特征及影响翻译活动不同因素的研究,TEC文本都做了数据处理,提供译者的姓名、性别、国籍和职业,译本的翻译方向,源语语言和出版社,译本的体裁和字数,源语文本作者的姓名、性别和国籍,源语文本出版的地点和年代等。

TEC建成之后,Maeve Olohan和Mona Baker等学者利用该语料库,并结合BNC和其他语料库相关数据的比较分析,开展语料库翻译学相关课题的研究,取得了丰硕的研究成果。Olohan (2003)对TEC和BNC语料中的可省略句法特征进行比较分析。研究结果显示翻译文本的可省略句法结构多于原创文本,因而翻译文本表现出较为明显的显化趋势。她还进一步考察分析了关系代词、不定式标记、 “while+doing”结构中的“while” 、 “after having done”结构中的“after”以及in oder等可省略语句成分在TEC和BNC语料中的使用情况,发现与BNC语料相比,TEC语料倾向于使用这些可省略的语句成分。这一结果再次论证了显化这一翻译共性。Mona Baker从类符/形符比、平均句长和叙事结构特点等方面对TEC收录的英国翻译家Peter Bush和Peter Clark译文进行比较分析。研究结果表明,Clark的译文较之于Bush的译文更加简洁。

另外,国内也开始建设翻译汉语语料库。 目前已建成的有西南大学胡显耀博士负责研制的当代汉语翻译小说语料库(Contemporary Chinese Translated Fiction,简称为CCTFC)和浙江大学肖忠华教授负责建设的浙大汉语译文语料库(Zhejiang University Chinese Translations Corpus,简称为ZCTC)。

CCTFC收录了译自英语、法语、德语、 日语和西班牙语等语言的汉语翻译小说共56部,库容容量为200万字。该语料库的设计依据TEC的设计思想,但同时也参照现有的现代汉语语料库,如英国兰开斯特大学语言学系Tony McEnery和肖忠华主持建设的兰开斯特汉语语料库(The Lancaster Corpus of Manderin Chinese,简称为LCMC) 。 CCTFC对语料作了词汇切分和标注处理。

同CCTFC一样,ZCTC的建设也以兰开斯特汉语语料库的设计和结构为参照依据。ZCTC收录了大部分译自英语、少量译自其他语言的500个汉译文本,每个译本字数为2000字,总库容为100万字。这些译本的体裁为学术科技、传记和散文、小说、新闻报道和社论等。学术科技语料在全部语料中所占的百分比为16%,传记和散文为15.4%,小说为23.4%,新闻报道和社论为14.2%。

四、 口译语料库

口译语料库指收录根据口译视频或音频材料转写而成的文字材料的语料库,其建库目的旨在研究口译策略、 口译语言特征、 口译规范及口译过程等。 口译语料库可划分为口译平行语料库和口译可比语料库。

口译平行语料库收录口译语料及其源语文本语料,这两类语料之间存在对应关系,通常应用于口译中不同语言间的对应关系、 口译策略和口译语言特征等领域的研究。 目前,该类语料库主要有意大利Bolgna大学主持建设的欧洲议会口译语料库和日本名古屋大学建设的日语—英语同声传译语料库。此外,胡开宝及其带领的团队成功开发了汉英会议口译平行语料库(Chinese-English Conference Interpreting Conference,简称为CECIC) 。汉英会议口译平行语料库收录了1988年至2008年我国中央政府及国务院有关部委举办的新闻发布会的汉语源语文本及英译,其中包括李鹏、朱镕基和温家宝三任总理以及钱其深、唐家璇、李肇星和杨洁篪四任外交部长答记者问、国务院有关部委负责人和发言人答记者问的汉语源语文本和英译语料,具体内容涵盖我国政治、经济、军事和外交等领域的政策和改革工作。该语料库现有库容为230465词, 目前正在扩容。其中,汉语源语文本为133431字,英译语料为97034词。

口译可比语料库收录相互之间具有可比性的目的语口译语料及目的语原创口语语料。这类语料库对于口译语言特征和口译规范研究具有很高的应用价值。胡开宝和陶庆(2010)利用汉英会议口译语料库所收录的可比语料,对新闻发布会的汉译英语料和英语原创语料中不定式标记“to”、逻辑关系连接词、并列句和复合句的使用频率进行定量研究。研究表明,前者不定式标记“to”、逻辑关系连接词和并列句的使用频率高于后者,但复合句的使用频率低于后者。他们认为显化和简化是口译语言的主要特征。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈