首页 理论教育 研究方法和类比语料数据

研究方法和类比语料数据

时间:2022-04-07 理论教育 版权反馈
【摘要】:语言发展过程中某一表达形式的使用从无到有、从罕用到常用,这一变化过程包含许多因素。如果上述推断成立,我们就可以认为汉语语言的历时变化和翻译语言相关,而且相互影响。所以,研究时我们主要使用对比分析方法:将汉语原创文本和汉语翻译文本中的句首成分进行比较,通过匹配关系找到二者之间的关联,确定哪些句首成分受到了汉语翻译语言的影响。

语言发展过程中某一表达形式的使用从无到有、从罕用到常用,这一变化过程包含许多因素。有些是语言因素,如汉语本身就存在发展的张力;有些是语言系统之外的因素,如汉语语言演进的社会-文化因素。所以,通常情况下很难说某一语言使用现象一定是某一因素作用的结果。尽管如此,我们可以通过描述某一语言使用现象的历时变化来推测其发展变化的原因和方式。在20世纪的前30年里,尤其是自“五四”开始,汉语白话文出现了快速变化。许多在传统白话文中未曾见到或者不曾常用的语言形式雨后春笋般涌现在汉语文本里。出现这种变化有很多原因,有的属于语言内部的自我更新,有的则是外部因素推动的结果。外部因素很多,其中的一个主要因素是翻译。在当时如火如荼的外汉翻译文本中,新兴表达形式的频繁使用可能随着翻译文本的流传而受到注意,被模仿或被借用。

如果上述推断成立,我们就可以认为汉语语言的历时变化和翻译语言相关,而且相互影响。白话文在发展过程中某些表达形式的使用伴随着该形式在翻译语言中的使用,且与源语文本的表达形式存在对应,可以认为该语言特征受到了翻译语言的影响。所以,研究时我们主要使用对比分析方法:将汉语原创文本和汉语翻译文本中的句首成分进行比较,通过匹配关系找到二者之间的关联,确定哪些句首成分受到了汉语翻译语言的影响。

为了实施这一研究,我们使用了现代汉语历时类比语料库,该库的构成如表9-1所示:

表9-1 现代汉语历时类比语料库(使用Ant Conc统计)

类比库具有历时性:1911年前(即民国前)到民国时期,再到改革开放时期,跨域一个世纪。每个阶段至少20年,具有可比性。各个时期语料的构成不尽相同,比例也不一致。这与文献获得的难度有关,更与白话文的在当时的使用状况有关。比如,1911年前几乎没有用白话撰写的哲学科技文献,体裁单一,所以,关于这个时期的语料不可能像后期那样平衡。再如,在“1919—1930年代汉语原创子库”里非文学文本只占12%,从语料平衡性角度看不合适;但当时白话文多用于文学创作,用于非文学领域的很少,这样就难实现我们所期望的平衡。另外,翻译语料本身文体就不平衡,不太可能像原创语料那样实现构成上的平衡。对于20世纪早期的汉语翻译语料来说,实现平衡就更难。从广为认可的语料平衡抽样角度看,类比语料不够理想,但这种状况又反映了当时各个时期白话文使用的实际状况,所以并不影响其代表性,能满足历时比较研究的需要。

为获得句首话语标记语的使用数据,我们采用语料的定位检索方法提取句首成分。为了尽量减少筛选工作量,我们只提取由1~4个词构成的独立使用的句首成分,这些独立的句首成分或者位于句子开头,或者在句中小句的开头。将每个子库的句首成分进行人工识别,找到充当话语标记的句首成分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈