首页 理论教育 日语语料库存在的问题及原因分析

日语语料库存在的问题及原因分析

时间:2022-04-08 理论教育 版权反馈
【摘要】:当然,与语料的质量相比,更为重要的是对语料的合理和高效运用。现有日语语料库普遍存在着语料选择面过窄、类型单一、没有经过系统抽样、缺乏均衡性的问题。结构较为合理、能够兼顾各类文体、具备良好均衡性和代表性的语料库的缺失大大制约了日语语言学研究的发展。由于汉语与欧美语言之间并不存在这样的相似性,可以认为,此类错误是中国日语学习者特有的问题。

当然,与语料的质量相比,更为重要的是对语料的合理和高效运用。为了确保研究成果真实可信,需要对语料选取方法进行反复推敲,并合理运用各种研究方法。而语料数量的不断膨胀也使得研究者的工作量激增。有必要利用计算机信息自动处理技术,根据研究的实际需要开发一些辅助软件,尽可能地减少机械性的重复劳动,提高研究效率。

现有日语语料库普遍存在着语料选择面过窄、类型单一、没有经过系统抽样、缺乏均衡性的问题。结构较为合理、能够兼顾各类文体、具备良好均衡性和代表性的语料库的缺失大大制约了日语语言学研究的发展。那为什么会出现这样的情况呢?

一、中介语的错误

中介语指的是学习者在二语习得各个阶段使用的语言系统。随着学习过程的进行,该系统从零起点开始不断向目的语靠近。但由于各种生理、心理因素的制约,几乎没有可能完全达到目标语母语使用者应有的水平。

Selinker将学习者用母语规则认识目标语语言规则,从而产生中介语语言规则的现象称为语言迁移。实际上,语言迁移不仅发生在母语和中介语之间,也发生在目标语和中介语之间。从心理认知过程来看,学习者在接触某目标语知识点时,为了帮助记忆,常常会借助于相关的母语或目标语知识。如果这些知识恰巧与学习对象在生成规律方面较为一致,或两者之间的区别比较明显,则学习者构建的规则也较为准确,形成正反馈。否则,就容易导致重构规则似是而非,造成负反馈。如果缺乏充分、真实、自然的语言实践环境,重构规则的错误将得不到纠正并逐渐固定下来。

当遭遇目标语产出需要时,学习者首先在头脑中对现有知识进行搜索。如果该目标语组块掌握较为充分,运用现有知识能够顺利地进行匹配或类推,产出的语块就较为准确、地道。否则,生成的目标语块必然会发生错误。如果学习者头脑中的目标语体系不能满足语言交际的需要,学习者就将被迫借助与之意义或形态相关的目标语或母语知识进行强行推导。与学习过程类似,如果凭借的语言知识恰巧较为合适,则输出较为准确。否则,学习者的产出就会在不同程度上违反目标语的使用习惯,导致各类语法、词汇或语用错误的出现。

观察中国日语学习者语料库中收录的中译日语料可以发现,中介语中各类表达失误的成因大致可以分为三大类,即单纯的目标语知识缺陷、语言负迁移以及文化背景差异。

(一)单纯的目标语知识缺陷

部分中介语错误的产生并非由相关知识的负迁移引起,而仅仅是因为学习者对某些目标语知识掌握不充分或重构规则出现错误。从语音层面来看,表现为清浊音、长音和促音等方面的错误。从书写层面来看,表现为假名和部分日语汉字的书写错误。从词汇层面来看,则表现为词性混淆等。

更为常见的是一些语法方面的误用。这些错误的发生往往是由于在学习者的母语中缺乏相应的语法范畴,导致他们在掌握和应用此类语法形式时出现困难。例如,由于汉语中没有助词、动词词尾变化以及及物、非及物动词区别,使得学习者在这些方面非常不敏感。即使经过近4年的学习,仍然难以避免此类错误。

(二)母语负迁移

如果学习者在学习或语言交际过程中不恰当地借助了某些语言知识,则重构的规则或产出必然会在不同程度上违反目标语言的使用规律,导致语言负迁移的发生。根据学习者凭借的知识来源不同,可以将语言负迁移分为母语负迁移和目标语干扰两类。由于母语的强大影响,在整个学习过程中,前者的效应都较为明显。但对于中高级学习者来说,克服后者的干扰也逐渐成为一个重要课题。

在中日两国漫长的文化交流过程中,大量汉字、词汇进入日语并得到广泛应用,成为日语中不可或缺的组成部分。而近代,又有一些日本人创造的汉语词汇(如经济、半岛等)回流中国,逐渐融入汉语之中。这种汉字、词汇的相近性给中国学习者带来了很大便利。但同时,也导致学习者容易忽视字型、词汇意义和用法等方面的差异,给正确掌握这些词汇造成更大的困难。由于汉语与欧美语言之间并不存在这样的相似性,可以认为,此类错误是中国日语学习者特有的问题。

语料还反映出学习者在掌握语块方面的不足。语块即常用的单词组合。关于语块的知识是词汇知识的重要组成部分。培养学习者的词汇搭配能力是语言学习的重要内容。观察语料可以发现,出现了大量逐字翻译、搭配不地道、错误多、产出困难等问题。

母语负反馈还表现在对数量词的过度使用上。也许是受到考试特定环境的影响,学习者对于数量词往往采取机械对应的方法。实际上,日语中数量词的使用频率不及汉语。数量词使用过多会造成表达不自然。

(三)目标语干扰

在学习和产出过程中,为了帮助记忆或提高效率,学习者除了借助母语知识外,有时还会参照目标语中的相关信息。如果目标语输入不足,导致学习者不当推导,就会造成规则重构或是产出方面的错误。例如,日语汉字读音有音读和训读两种。其中,音读颇有规律可循。这给学习者带来了极大便利。但是,不恰当地运用读音推导汉字,就会造成错误。

在学习语法项目的过程中,学习者通过接触例句和有关说明,在内部逐步重构相应的规则。这些规则通常应该包括句法功能、接续、先行词性质和呼应等方面内容。如果有效输入不足,信息不完整,就容易出现语法规则过度归纳的情况。

(四)文化背景差异

对母语理解不足或缺乏目标语词汇的文化背景知识也是造成中介语错误的重要原因之一。由于母语阅读、理解能力不足,或是受限于考试时间,部分应试者没有透彻领会题意便匆匆下笔,造成了很多误译。

更加难以准确处理的是那些文化背景差别很大以致日语中没有对应词汇的内容。例如,中国人常吃骨头火锅,里面的肉骨头不仅使汤更加鲜浓,上面的肉也是食用对象。但是日本人却没有啃骨头的习惯,而是用骨头烹制高汤后将其尽数抛弃。因此,日语中没有能与“肉骨头”完全对应的词语。该词的译法自然就成了难点之一。

因此,该词汇翻译的准确率就高得多了。这显示,在有效输入不足的情况下,文化背景差异的大小与学习者输出的困难程度成正比。

二、受到了著作权问题的制约

日本的法律对于著作权有着严格的规定,日本的研究者在此问题上也均持谨慎态度。如果获得或是使用素材的方式在法律上存在问题的话,研究结果就不能公开发表,研究本身也就失去了意义。因此,要建立一个具有一定规模、均衡性及代表性较好的语料库,首先就必须逐一解决素材的著作权问题,而这又谈何容易[1]。权宜之计就是选取那些较易解决著作权问题的素材,如新闻报道、各种公文等组成文本库。由于可利用的资源有限,自然无法对其进行进一步的抽样和筛选。

三、语料库的基础建设未受到重视

美的各大语料库往往都是由各大高校建立的。例如,第一个现代意义上的语料库布朗语料库就是在美国布朗大学建立的。兰开斯特——奥斯陆卑尔根语料库(LOB)则由英国兰开斯特大学、挪威奥斯陆大学、卑尔根大学联合建立。而在以上列举的日语语料库中,除了京都大学语料库和中日对译语料库是由高校或相关研究机构建立的之外,其余的都是由日本国立国语研究所以及一些商业机构的附属研究部门制作的。日本国立国语研究所虽然很早就尝试将计算机技术运用于语言研究,但是其研究偏重于针对某些特定语料(如报纸、杂志、教科书、电视节目)的词汇分析。运用的语料局限于特定的范围,对于建设通用性较强的均衡语料库并没有迫切需求。直到90年代后期,受到欧美语料库应用蓬勃发展的影响,该所才开始着手相关研究,并于2004年和2005年分别推出了《日语口语料库》和《太阳语料库》。

至于那些由商业机构附属研究部门建立的语料库,由于考虑到开发成本和效率,在设计之初往往就具有明确的目的性,而不会兼顾均衡性、代表性和通用性。

[1] 许慈惠等:《近40年日语语言研究综述》,文汇出版社,2011,303。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈