首页 理论教育 汉语类辞书编纂技术的现代化转向

汉语类辞书编纂技术的现代化转向

时间:2022-04-01 理论教育 版权反馈
【摘要】:汉语类辞书编纂技术的现代化转向_现代语料库技术的应用_中国外语类辞书编纂出版30年二、汉语类辞书编纂技术的现代化转向——现代语料库技术的应用众所周知,在国外英语类辞书编纂与出版迈向现代化的过程中,计算机和语料库的应用是两个关键的技术进步要素。此处,我们概要介绍服务于汉语辞书研发的编纂平台。基于语料库的汉语辞书的研编目前还未见重要成果问世。

二、汉语类辞书编纂技术的现代化转向——现代语料库技术的应用

众所周知,在国外英语类辞书编纂与出版迈向现代化的过程中,计算机和语料库的应用是两个关键的技术进步要素。这方面最先取得开拓性成果的当属英国伯明翰大学和柯林斯出版社的成功合作。1987年,基于COBUILD(Collins Birmingham University International Language Database)语料库编纂的《柯林斯合作英语词典》的问世,被看作是“一种符合信息时代要求的现代化词典编纂方式”(12),开创了现代词典编纂的先河。在当代,建立语料库已经成为编纂原创性词典的必要条件。

与双语辞书界的同行一样,汉语辞书界的专家学者们也在积极探索着以语料库为依托的现代化词典编纂手段。自20世纪90年代初期至今,汉语语料库的建设已历经近20年的时间,取得了重要的成果,已建成的主要语料库有:(1)“国家语委现代汉语语料库”。该语料库从1990年起便开始组织建设,目前规模为1亿字,语料选取的时间跨度历时长(自1919年至2002年),题材与体裁的分布广泛,包含现代汉语语言材料7 000万字,由人文与社会科学、自然科学及综合三个大类约40个小类组成。该语料库是超大规模通用平衡语料库,目前已完成5 000万字的词语切分和词性标注,以及5万句的句法树结构标注。(13)(2)国家语言资源监测与研究中心因编制《中国语言生活状况报告》每年形成的10亿量级的汉语语料库,被看作是“当前规模最大、影响最广的工作”(14)。为了完成系列化的《中国语言生活状况报告》编写任务,分布于多所大学的研究人员在后台做了大量的艰苦的数据收集与处理工作,形成海量语言信息(15)。(3)北京大学汉语语言学研究中心的现代汉语语料库和古代汉语语料库,前者的规模约为2亿6千万字,后者的规模约为8千万字。两个语料库均未进行标注处理(16)

汉语语料库的建设为汉语辞书的编纂提供了丰富、真实的语言材料,但基于语料库的辞书编写方式的实现还有赖于以语料库为基础的相关辞书编纂技术的研发,需要构建服务于辞书编纂的平台,并开发适用于辞书编纂的各种软件,将传统编纂手段与现代化技术手段有机融合,才能为高质量、原创性词典的编写提供坚实的技术基础。“国外同行都很重视辞书编纂手段的现代化,基本上是采用基于语料库的编纂平台,比如英国牛津大学出版社、剑桥大学出版社等都有超过10亿词的超大规模语料库。这样编写的辞书,‘从入门级到高级,从单语到双语,从英式英语到美式英语’,应有尽有”(17)。在第四章,我们已提及服务于双语词典编纂的相关平台研发。此处,我们概要介绍服务于汉语辞书研发的编纂平台。据靳光瑾(2005)(18),教育部语言文字应用研究所在国家“863计划”的支持下,开发设计了基于语料库的数字化辞书编纂平台。该平台“是以大规模通用汉语语料库(按注:国家语委主持建设的汉语平衡语料库)为基础,以数字化典范辞书为出发点,利用语言信息处理计算机技术等,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台,突破传统的辞书编纂理念,建立一种新型的辞书编纂模式”(第141—142页)。此平台“将提供从内容到形式、从编辑到出版的多样化的辞书编纂工具”(第144页)。

在前面的章节,我们已提到,基于语料库的词典编纂在外语类辞书的研编上已取得重要成果,如《新时代英汉大词典》(张柏然主编,商务印书馆,2004年)。基于语料库的汉语辞书的研编目前还未见重要成果问世。对此,王铁琨教授曾提出非常中肯的建议,“而我国,语料库、知识库等基础资源库建设相对滞后,多数出版社主要还是靠手工编纂……因此,从辞书事业的长远发展看,必须抓紧建设适应辞书编纂不同需求的各类语料库,可以独立建设专门服务于某项编纂工程的语料库、知识库,也可以通过互联网络分工合作,共建大型通用的语料库或充分利用已有的国家语委现代汉语平衡语料库,集成语言资源,实现辞书行业的共建共享”(19)。语料库之于词典编纂的重要价值已不言而喻,基于语料库的辞书编纂技术研发和实践在我国已经起步,但愿未来我们能见到更多利用语料库编写的汉语辞书,推动有着2 000多年悠久历史的中国辞书事业完成现代化的华丽转身!

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈