首页 理论教育 语料库的应用与发展展望

语料库的应用与发展展望

时间:2022-04-08 理论教育 版权反馈
【摘要】:一、语料库的应用语料库包括日语研究在内的语言研究过去一般采用内省的方法,以人工造句的例子为主。随着各种语料库的开发,从20世纪90年代起,涌现出一批运用语料库数据信息开展日语研究的成果,内容涉及词汇、语法、修辞、语体等领域。

一、语料库的应用

语料库包括日语研究在内的语言研究过去一般采用内省的方法,以人工造句的例子为主。依据实例的研究在数量上受到人工无法收集大量例句的限制。随着各种语料库的开发,从20世纪90年代起,涌现出一批运用语料库数据信息开展日语研究的成果,内容涉及词汇、语法、修辞、语体等领域。这种运用语料库等电子资料进行的话言研究统称为语料库语言学。语料库作为一种重要的辅助工具,促进了语言研究的进一步深化和量化研究的开展。

北京日本学研究中心研制的《中日对译语料库》是一个收录约2000万字的大型双语平行语料库。在研制过程中,涌现出一批包括态、体、语气、因果关系等问题的汉日对比研究以及翻译研究的成果。日本国立国语研究所收集了包括日本、韩国、泰国、蒙古、中国等亚洲10国日语学习者的作文资料,数据包括日语作文、母语译文、作文执笔者信息、日语作文修改以及修改者信息。这个语料库具有多种研究用途,包括错误分析、中间语言研究、对比研究、母语干涉研究、作文指导研究等。《日语精读课教学研究数据库》是我国第一个综合型日语教学研究数据库,已经初步完成的《教材语料库》收集了国内出版的四种精读课教材共16册的包括课文、生词、解说、练习在内的全部内容,对于开展教材研究具有推动意义,并可以为课程标准的制定和教材编写提供参考数据。除此之外,还有学者个人为研究而开发的语料库。如戴宝玉制作的纯文本语料库,收录有小说、随笔、剧本、对谈和各种论说文约4000余万字。

语料库在语言研究上的具体应用包括检验某种语言现象是否存在、类似语言形式的使用分布、从数量统计的角度验证现有的研究结论等。

戴宝玉(2005)指出,由于日语文字标记的复杂性使得语料库的应用受到限制,某些同字异读词无法检索区分。另外,语料库的构成内容不同会直接影响到检索的结果。某些加注标记的语料库势必反映编制者的语言观等。这些都需要在研究时加以注意。

总之,辞典、知识库、语料库等都是自然语言处理系统所必需的支援系统,它们的制作需要极大的人力和财力,而且要依靠语言处理的技术来完成。另一方面,辞典等支援系统的功能和精度又被制作时的语言处理的技术水平所左右。这就存在着一个矛盾:辞典等是为了帮助语言处理的提高和发展而产生的支援系统,可是语言处理技术不高,支援系统又实现不了本来的目的。要跨越这种矛盾,就要重视支援系统的阶段性提高,探讨其高速储存、即时更新等问题。

二、语料库的发展展望

尽管日语语料库研究的起步与欧美相比不算很晚,但受到客观条件、研究方向以及研究理念等因素的制约,现有的语料库以及类似的文本素材在规模、均衡性、代表性方面均有所欠缺,不能满足现代语言研究的需要。

正是意识到了这个问题,国立国语研究所启动了一个名为KOTONOHA的庞大的语料库建设计划,目标是建立一个兼顾书面语和口语的历时语料库群。其中涵盖了已经建成的《太阳语料库》和《日语口语料库》。目前该所正在着手开发现代书面语均衡语料库。该语料库以近25~30年各类出版物中的书面语素材为收录对象,采取随机抽取的方法,整体规模将达到1亿词。所有入库的文本都将进行形态素分析。整个工作已于2011年完成,之后按照一定步骤定期加以补充[1]。与之前的语料库建设相比,该项目在规划、语料采集、后期加工方面均有了长足进步。相信它的建成和投入使用将会在一定程度上推动日语语言学及相关学科的发展。

[1] 目前,该语料库已经公开部分语料供研究者试用(http://www.kotonoha.gr.jp/demo/)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈