首页 理论教育 日语语料库的发展与分类

日语语料库的发展与分类

时间:2022-04-08 理论教育 版权反馈
【摘要】:一、语料库的发展语料库的发展从语料的输入层面上先后经历了手工抄写、打字输入、计算机键盘输入、光电扫描、语音输入四个阶段。但是语料多少并不是决定语料库质量的唯一标准。现代语料库研究发轫于欧美,因此欧美的语料库特别是英语语料库的建设历史最长,种类最丰富,设计也最成熟。现以欧美语料库为例,归纳一下语料库的大致分类。从整体上看,欧美语料库的建设较为成熟。

一、语料库的发展

语料库的发展从语料的输入层面上先后经历了手工抄写、打字输入、计算机键盘输入、光电扫描、语音输入四个阶段。前两种输入法用于早期建立规模较小的卡片式语料库,由于计算机技术的飞速发展和日益普及,光电扫描已经成为书面语输入的标准手段,对于口语材料则可采用语音识别加人工校正的方法进行输入,因此建立大规模语料库在技术上已经不成问题。

但是语料多少并不是决定语料库质量的唯一标准。现在,互联网日益普及、电子出版物已成时尚,从各媒体获取大量语料已是举手之劳,关键是语料库中的语料都被分类整理过,并被加上了各种标记,这样语料库就成了机器可读的形式,经操作员在计算机终端上的编辑和修改,最终提供给语言学家做各种研究。不加标记的语料很难用于语言研究,加注标记的工作可以由专门的软件来完成。

近几十年来,语言学家开始用计算机对大量的语料进行取样、储存、分类和统计分析。从国外英语语料库的建设来看,英国伯明翰大学的柯伯国际语言数据库早在1980年就开始运转,该语料库就是现在著名的“英语库”的前身,其收词已达到4.5亿个;英语国家语料库收词1亿左右;世界英语语料库收录了2亿词;美国的蓝登书屋动态词典数据库收词1.4亿个。随着科学技术的发展,各种语料库的容量仍在持续膨胀,计算机语料库的优势就是资料真实,可信度强。语料库里存储的数据来自方方面面:报纸杂志、小说、戏剧、广播、电视等。语料库不仅有各种文体的书面语,还有各种场合的口语体。这些语料库均通过计算机加注了各种标记,检索者通过特殊的标记就可轻松地获得所需的语料信息。

二、语料库的分类

每个语料库的结构和收录内容都有所不同。要对其进行分析和比较,就必须准确把握语料库的各项特征。现代语料库研究发轫于欧美,因此欧美的语料库特别是英语语料库的建设历史最长,种类最丰富,设计也最成熟。现以欧美语料库为例,归纳一下语料库的大致分类。

从不同角度出发,可以将语料库大致分类如下:

(1)根据语言素材的类型,分为书面语语料库、口语语料库和混合语料库。

(2)根据语料的文体类型,分为单文体语料库和多文体语料库。

(3)根据语料的选取方式,分为全文语料库和抽样语料库。

(4)根据语料的时间特征,分为共时语料库和历时语料库。

(5)根据是否对语料赋码,分为未赋码语料库和已赋码语料库。

(6)根据是否对语料进行后续增补,分为封闭式语料库和监控语料库。

(7)按照语料的语种,分为单语种语料库和多语种并行语料库。

(8)根据收取的语料是原文还是译文,分为原文语料库和翻译语料库。

(9)根据语料的作者是母语使用者还是外语学习者,分为母语语料库和学习者语料库。

需要指出的是,以上这些分类角度各有不同,彼此之间并不冲突。从不同的视角出发,可以将同一个语料库归入不同类别。例如布朗语料库既是书面语语料库、多文体语料库、抽样语料库、共时语料库和未赋码语料库,同时又是封闭式语料库、单语种语料库、原文语料库和母语语料库。

从整体上看,欧美语料库的建设较为成熟。不仅数量众多,种类齐全,而且普遍具有明确的设计理念。通过系统抽样的方法,保证所收语料具备了一定的均衡性和代表性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈