首页 理论教育 辞书编纂技术的发展与创新

辞书编纂技术的发展与创新

时间:2022-04-01 理论教育 版权反馈
【摘要】:在此,我们拟选取“语料库技术与词典编纂手段创新”这一研究热点,从科研立项、语料库建设、软件开发、词典产出等方面来回顾和概述双语词典学界在该研究领域取得的重要成就。从科研立项情况来看,关于语料库用于外语类辞书研编的项目在纵向和横向上都有所涉及,这也反映出国家对此项研究的扶持和学界对此项研究的积极探索。

二、辞书编纂技术的发展与创新

1978—2008年间,我国外语类辞书编纂与出版的现代化进程发展迅速。这方面的变化不仅体现在外语类辞书编纂与出版的现代化理念迅速普及,而且更体现在相关现代化技术手段的应用与不断创新提升。在本小节中,我们旨在概述30年来我国双语词典研究者在借助新技术手段(主要是语料库)创新外语类辞书编纂方面所做出的探索和取得的成就,并分析其中存在的主要问题。

1﹒我国外语类辞书研编技术创新回顾

中国辞书编纂有着2 000多年的悠久历史,从《尔雅》到《康熙字典》,我们的先贤们凭借着严谨治学的态度,靠手工操作给我们留下宝贵的辞书财富,这是值得炎黄子孙引以为豪的。长期以来,引文卡的编制始终是词典编纂传统工艺流程中重要的一环。但这项工作繁琐庞杂、费时耗力,且词典一旦完成,卡片构成的资料库很难再次利用,不利于编纂人员开展各种统计分析与研究。直到20世纪七八十年代,我国的辞书编纂基本上还依赖于传统手工制作的卡片资料(102),严重束缚了词典编纂者创造力的发挥。随着电子信息技术和计算机技术的不断进步,辞书编纂出版自动化开始逐步取代了传统手工作坊式的辞书编纂出版技术,辞书编纂事业面临着新的挑战与机遇。辞书载体由纸质印刷本向电子介质的演变,推动着辞书编纂手段的现代化进程不断向纵深发展。“辞书编纂手段现代化,其现实含义就是在辞书编纂过程中充分使用数字技术和各种数据库。具体来说,就是开发功能强大的语料库、知识库和适于辞书编纂的软件系统。”(103)

在回顾我国外语类辞书编纂的技术创新历程之前,我们拟先对国外的词典编纂出版手段现代化发展过程做一简要概述,以为后面的深入探讨做些铺垫。我们认为,自计算机问世以来,国外的词典编纂出版技术创新大致经历了如下几个阶段(104)

(1)计算机用于词典编纂的探索阶段(20世纪六七十年代)。在这一时期,计算机技术开始被应用于词典编纂的实践领域。人们首次在词典编纂中尝试技术手段的更新,词典文本信息开始计算机化或数字化。例如,在词条的编写过程中,词典编者开始逐步脱离笔和纸,在计算机的屏幕上编辑文字。但很多人依旧会“为搞不懂计算机的工作原理或莫名其妙死机的原因而感到沮丧”(105)。但随着文档服务器存储能力的大大增强,计算机可以存储越来越大的电子文件了。“……电子文本的大量增加和数据存储能力的提高是改变词典编纂面貌的两个要素。……那些在不久前仅存于疯狂想象家幻想中的特大型语料库现已经成为事实。”(106)当大型电子语料库的构建成为可能时,计算机技术进步推动下的词典编纂开始迎来革命性的新时代。

(2)多媒体词典研发阶段(20世纪60年代至今)。这主要是指借助计算机相关技术开发设计光盘电子词典和掌上(芯片)电子词典的阶段。多媒体技术就是对多种媒体(包括文本、图形、图像、视像、声频和动画)进行数字化综合处理的计算机技术(107)。20世纪60年代,随着计算机处理技术的不断进步,国外开始研究将经计算机处理的数字化信息存储于软磁盘和只读光盘(CD ROM)中。直到目前,国外的许多纸质版词典在出售时都附带该词典的光盘。得益于机器翻译技术的进步,1983年,世界上最早的掌上(芯片)电子词典得以问世。“多媒体以其多样性大大提高了人们能够接触到的信息量。……辞书是信息密集型出版物,多媒体技术为辞书找到了比书本型优越得多的最佳载体,……为辞书的编纂开拓了一片崭新的天地。”(108)

(3)语料库环境下的词典编纂阶段(20世纪80年代至今)。1987年,第一部以语料库为基础的英语词典《柯林斯COBUILD英语词典》问世,给全球英语词典的编纂带来了根本性的变革。此后,其他出版社纷纷效仿,都把语料库作为其首要的语料来源,词典编纂进入了现代语料库时代。计算机语料库的建立和检索工具的开发大大提高了现代词典编纂的效率。词典编纂者无须像过去一样耗时费力地用人工手段来采集语料,语料采集、整理与存储的效率,因为有了现代语料库及其技术而变得更加快捷高效。他们可以将更多时间投入到词典编纂的实质性工作(如释义、词汇用法说明等)中。随着国外“五大家族”的学习型词典在全球掀起语料库词典编纂模式之浪潮,语料库在词典编纂中的应用作为一种新方法,受到了越来越广泛的认可和重视。

(4)网络时代的词典编纂探索阶段(20世纪90年代至今)。20世纪90年代初期,随着互联网的出现和快速发展,人类进入网络时代。作为全球最大的信息资源库,互联网正给传统的词典编纂带来更多新的变化,如利用互联网确立新词、搜索例句,开发基于网页的在线词典,网络用户参与词典信息编写的新模式,等等。互联网技术给现代辞书编纂出版事业的发展所提供的帮助,可谓如虎添翼。

受到国外词典界同行们在辞书编纂手段创新上取得的巨大成就的鼓舞,20世纪80年代末90年代初,我国的双语词典研究者在外语类辞书编纂领域率先开展了辞书编纂的计算机(辅助)化和语料库词典编纂研究,开始告别传统的辞书编纂模式与方法,逐步与国外先进的现代辞书编纂方式接轨。在此,我们拟选取“语料库技术与词典编纂手段创新”这一研究热点,从科研立项、语料库建设、软件开发、词典产出等方面来回顾和概述双语词典学界在该研究领域取得的重要成就。

从科研立项情况来看,关于语料库用于外语类辞书研编的项目在纵向和横向上都有所涉及,这也反映出国家对此项研究的扶持和学界对此项研究的积极探索。从纵向来看,自1993年以来,共有6项有关外语类辞书研编的项目获得国家社科基金立项(109),其中有两项与语料库相关,分别为“网络环境下语料库标引与词典编纂标准化研究(负责人:魏向清,立项时间:1999年)”、“基于平行语料库的《汉英词典》的研编(负责人:李德俊,立项时间:2007年)”。据我们的了解,教育部相关科研立项中有关语料库与外语类辞书编纂的项目有“基于微观数据结构的双语词典生成系统(负责人:章宜华,教育部重大项目,立项时间:2002年)”、“基于英汉平行语料库的英语学习词典的研编(负责人:陈国华,教育部人文社会科学重点研究基地基金资助项目,立项时间:2002年)”等。从横向来看,重大的相关科研项目如“南京大学—商务印书馆合作共建的CONULEXID英汉语料库(立项时间:1995年)”等。这些科研项目的设立从侧面反映出了我们国家对这项研究的扶持,而这些研究的付诸实施则为外语类辞书编纂手段的创新和编纂质量的提高打下了坚实的基础。

我国语料库的建设从1979年开始,与国际上语料库二次兴起的时间基本同步(110),英汉平行语料库的建设则起步于20世纪90年代(111)。对于双语词典的编纂来说,平行语料库的优势明显大于单语语料库。据了解,中国大陆目前在建英汉平行语料库的有北京大学、哈尔滨工业大学、南京大学、北京外国语大学和中国科学院等。然而,我国语料库的发展形势虽然不错,但开发的语料库大多用于语言研究,用于词典编纂的还非常有限或者不够成熟。以商务—南大英汉语言资料库为基础,南京大学双语词典研究中心先后研发了用于双语词典编纂的CONULEXID系统,并于1998年投入到《新时代英汉大词典》的研编工作中,初步尝试成功并取得可喜的成果。语料库的开发和建设使外语类辞书的编纂开始逐步摆脱了对外语单语蓝本词典资料的完全依附,词典编纂者在语料选取方面的自主权有了根本的资源保障,因此,也就更能体现双语词典编者在编纂过程中的主体性。另一方面,就编纂效率来说,借助语料库还可以缩短词典编纂出版以及修订的周期。

语料库的建设给词典编纂提供了丰富的资源,但如何高效地提取、分析和利用这些资源则有赖于相关软件的开发。机辅词典编纂系统软件的研发目前已经引起词典学研究机构和出版社的关注。据我们的了解,当前教育部语言文字应用研究所、北京大学计算语言学研究所、南京大学双语词典研究中心、广东外语外贸大学词典学研究中心、北京外国语大学等研究机构正在进行词典机辅编写系统的研发与探索。我们认为,适合双语词典编纂的配套软件包括选词立目软件(即如何通过此软件从语料库中抽取出词典编纂所需的词表)、译义对应词选取软件(即如何通过此软件从平行语料库中查找词目词的译语对应词并标识多个对应词的使用频率)、例句自动提取软件(112)、可供英汉双语检索使用的检索软件、校对软件等。如能将这些相关软件恰当融入一个词典编纂平台中,对于提高双语词典的编写效率和质量有着极为重要的意义。

词典编纂技术创新的最终目标是将词典编者从传统的手工作坊式词典编纂实践中解放出来,辅助他们更好地发挥创造力,编写或修订出高质量的词典文本。过去的近15年时间是我国双语词典研究者探索平行语料库用于外语类辞书编纂的起步阶段,客观来讲,我们还未取得较多的成果。目前来看,仅有基于CONULEXID英汉语料库的《新时代英汉大词典》取得了初步的成功,尤其是在借助语料库选取例句方面。该语料库中的“语料博采英美文典语言之精华,兼蓄澳加载籍语言之蕴奥”(113),《新时代》所举16万条例证,大多取自该语料库,翔实中肯,兼顾各种语体表达,体现不同搭配。另据我们的了解,北京外国语大学的陈国华教授正围绕《中国学生英语学习词典》编纂项目,探索机辅词典编纂系统的设计与应用,我们非常期待又一基于现代词典编纂手段的词典成果问世。

2﹒存在的主要问题

经过改革开放30年的快速发展,虽然语料库已开始在我国外语类辞书编纂实践中被加以应用,但就我国目前用于词典编纂的语料库建设现状和水平来看,依然有许多待改进的方面:

(1)可用于词典编纂的学习者语料库建设滞后。据不完全统计,到2008年,我国已经出版的大学生英语学习者语料库有8个。(114)但这些语料库基本上是用于语言研究的,面向词典编纂的基本没有。这恰与英国的语料库建设相反,其现有的几个大型语料库最初建立的目的多是为词典编纂服务的。建设用于双语词典编纂的学习者语料库的重要意义在于可以揭示我国外语学习者在二语习得过程中出现的特殊性,从而提高词典编者在语言信息取舍上的针对性,以更加贴近和满足中国英语学习者的语言文化认知需求。

(2)语料深加工问题尚未能得到较好的解决。目前的英汉平行语料库主要是停留在句对齐的加工层次,呈现在词典编纂者眼前的语料多为双语对照的互译语句。虽然语料极为丰富,但由于缺乏深层次的标记加工,在实际操作中词典编者仍需花费大量的时间和精力来“去伪存精”,使用效率仍远远不够高。

(3)与国外同行相比,双语词典编者的编纂理念略显滞后。“五大家族”英语学习型词典的巨大成功,“让我们看到了现代语料库的语料与技术优势给词典编纂者带来的种种显而易见的便利与帮助。但是,我们更应该看到,语料库的技术优势实质上是以词典编纂者理念的不断创新而产生的语料加工需求为根本驱动的”(115)。如何更多地从双语学习型词典设计特征的原创研究出发,来探索平行语料库的建设与利用,值得我们双语词典学界的同行们认真思考。

正如王铁琨教授(2007)所指出的,“实现辞书编纂手段的现代化,难的不是技术本身,而是人的观念”(116)。只要我们能够树立正确的辞书编纂现代理念,积极学习国外辞书编纂的现代化手段,并结合双语词典编纂实践的特殊性,做出合理的改变,在努力打造印刷本双语词典精品的同时,积极探索电子化、数字化和网络化环境下的新型词典研发问题,一定可以加快我国外语类辞书编纂出版的现代化进程,早日进入国际辞书编纂出版的先进国家行列。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈