首页 理论教育 平行语料库的建设状况

平行语料库的建设状况

时间:2022-04-07 理论教育 版权反馈
【摘要】:第1章1.2.1节指出,研究语言变化,必然使用既往语言素材,历时语料在这方面有重大作为。比如,在历史语料库里,按照时间先后连续收集的语料是历时的,但其中能代表某一时段并作为独立自足单元收集的语料则属于共时语料,可用于共时语言研究。历史语言学家所言的历时和现在历时语言学家心里的时间框架不同。本章探讨现代历时平行语料库的创建,以及这类语料库可能的用途。

第1章1.2.1节指出,研究语言变化,必然使用既往语言素材,历时语料在这方面有重大作为。历时语料专指按照时间先后连续抽取的素材,这种连续性甚至可以延伸至当下。比如,在历史语料库里,按照时间先后连续收集的语料是历时的,但其中能代表某一时段并作为独立自足单元收集的语料则属于共时语料,可用于共时语言研究。

历史语言学家所言的历时和现在历时语言学家心里的时间框架不同(Renouf,2007:38)。传统的历时语料库往往有很大的时间跨度,动辄几个世纪甚至跨越千年。与之相比,现代历时语言学家对比的文本通常只有10到30年的时间跨度,使用的语料库自然只有很短的时间间隔,主要有两种:一种是采用相同取样框架和设置,但按照时间顺序从不同时段选取语料,如20世纪60年代的LOB语料库和它在90年代的克隆语料库(clone corpora)FLOB(还有Brown和Frown),这类语料库属于历时语料库,支持历时语言研究。二是监控语料库(“monitor”corpus;或称“dynamic”corpus),这类语料库中的文本按照特定设计收集,所收文本在时间上具有连续性。根据Renouf(2007:36),监控/动态语料库到1990年才出现,来自Renouf主持的AVIATOR项目,库中语料为1988年以来《泰晤士报》的文本,文本按照时序不间断收集;另一同类型监控语料库由ACRONYM项目于1994年开始创建,不过收集的是《独立报》的新闻文本。

从历史和历时的包容关系看,我们可以把在大跨度时间段内收集的历时语料称作历史语料库,而把当代出现的在跨度较小的时段内收集的历时语料称作现代历时语料库(modern diachronic corpus)。本章探讨现代历时平行语料库的创建,以及这类语料库可能的用途。

现有的英汉平行语料库,无论在规模、时效性和领域平衡性方面都很难满足英汉翻译研究和外语教学的需要,而现有的检索工具,在检索条件限制和检索信息展示方面存在很多不足,同时单机版的检索工具也不利于推广使用。针对这些问题,本章论述了大型英汉平行语料库的构建过程,并设计开发了一个基于Web的检索平台。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈