首页 理论教育 汉语历史语料库

汉语历史语料库

时间:2022-04-07 理论教育 版权反馈
【摘要】:在中国,使用历时语言素材进行研究有悠久传统,但多以整书做素材,取材范围有限。汉语语料库的创建主体是共时语料,如台湾“中研院平衡语料库”和北京大学“CCL语料库”。较早可用于历时研究的北京大学的CCL语料库有古代汉语和现代汉语两个子库。

在中国,使用历时语言素材进行研究有悠久传统,但多以整书做素材,取材范围有限。近二十年来,我国开始创建汉语语料库,各种语料库如雨后春笋,但严格意义上的历史语料库却很罕见。汉语语料库的创建主体是共时语料,如台湾“中研院平衡语料库”和北京大学“CCL语料库”。后者虽然包含古代汉语和现代汉语,但检索不支持按年代或年份检索。有报告显示,Tsou等(2011)在建设LIBVAC汉语语料库[10],该库收集了4亿汉字的新闻语料,收集的语料时间范围是1995—2011年,跨度达16年,语料来自多个有代表性的区域性语言社团,国内的分别位于北京、香港、上海、台湾、澳门等,国外的位于新加坡等。该库可以检索到某一词汇在特定时段、特定地域使用的状况,支持语言的同质、异质研究,以及共时和历时研究。

较早可用于历时研究的北京大学的CCL语料库有古代汉语和现代汉语两个子库。古代部分的语料涵盖周朝至民国初年,检索时按照朝代进行时间分期,而不像国际通用的做法,即按照年代(每十年)分期。该库的另一个特点是题材丰富,经、史、曲、诗、词、诸子百家一应俱全,且大多为全文收录。该库允许按照朝代检索,如“path:宋此”,也可以实施句子结构检索。但是,由于各朝代所取的语料存在体裁不同、字库库容不一、时间分期过于笼统等问题,即使检索出数据,能否用来进行数据统计分析目前还是有待探索的问题。

另一个正在建设中的汉语语料库来自2010年度重大项目(基础类)“汉语史语料库建设研究”(首席专家董志翘主持),该项目正致力于建设国内首个可用于汉语史研究的多子库深加工中古汉语历时语料库,设计库容为1600万字,时间框架为东汉至隋朝(董志翘,2011)。这个历史语料库既可以用于共时研究,如发现某一时期语言运用的主要特征;也可以用于历时研究,如观察词汇和句法的发展变化。语料项目还将研制“中古汉语语料库检索系统”、“中古汉语自动分词系统”、“中古汉语词义自动标注系统”及“中古汉语异文发现软件”。

2010年,国家重大招标课题“大规模英汉平行语料库的建立与加工”(首席专家王克非主持)将历时英汉翻译语料库建设视为基础工作,要为翻译与现代汉语之间的互动建立比较完整的描写和分析框架,使多层面、系统性的翻译和语言变化历时研究成为可能。目前,该项目资助下的检索平台已完成开发,目前已实现部分内网在线检索[11]。为实现检索的准确性和针对性,该检索平台充分利用篇头元数据和元字符,实现了中英文多重复合检索。在利用篇头元数据方面,有文本属性、著译者和时间信息来区分检索数据,反映特定语言项目历时变化的数据就可以准确提取出来,更好地服务于历时语言研究。

从以上情况看,在我国建立的历史语料库,选取的多为未经抽样的完整版本,并没有真正意义上的平衡语料库;而且,由于语言不同,历史文化传统不同,汉语历史语料库的创建有其特殊性,如可能包含的体裁,汉语语料处理方式,等等。这些都给古汉语语料库的创建带来了问题。但无论如何,我们在收集汉语历史语料时要重视各时段内语料构成的同质性,因为只有这样历时对比才会得出有意义的数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈