首页 理论教育 “维基”时代辞书全媒体出版的技术支撑

“维基”时代辞书全媒体出版的技术支撑

时间:2022-04-01 理论教育 版权反馈
【摘要】:“维基”时代辞书全媒体出版的技术支撑_中国外语类辞书编纂出版30年一、“维基”时代辞书全媒体出版的技术支撑1﹒Web 2.0的相关技术在辞书发展的“维基”时代,辞书编纂与出版的现代化将不可避免地与Web 2.0有千丝万缕的联系。

一、“维基”时代辞书全媒体出版的技术支撑

1﹒Web 2.0的相关技术

在辞书发展的“维基”时代,辞书编纂与出版的现代化将不可避免地与Web 2.0有千丝万缕的联系。在一定意义上也可以说Web 2.0的理念和技术决定了未来辞书编纂与出版现代化的发展趋势。相对于Web 1.0而言,Web 2.0是新的一类互联网应用的统称,是一次从核心内容到外部应用的革命。由Web 1.0单纯通过网络浏览器浏览html网页模式向内容更丰富、联系性更强、工具性更强的Web 2.0互联网模式的发展已经成为互联网新的发展趋势。Web 2.0有如下突出特点:(1)用户参与网站内容制造:与Web 1.0网站单向信息发布的模式不同,Web 2.0网站的内容通常是用户发布的,使得用户既是网站内容的浏览者也是网站内容的制造者,这也就意味着Web 2.0网站为用户提供了更多参与的机会;(2)Web 2.0更加注重交互性:不仅用户在发布内容过程中实现与网络服务器之间交互,而且,也实现了同一网站不同用户之间的交互,以及不同网站之间信息的交互;Web 2.0的核心不是技术而在于指导思想。Web 2.0有一些典型的技术,但技术是为了达到某种目的所采取的手段。Web 2.0技术本身不是Web 2.0网站的核心,重要的在于典型的Web 2.0技术体现了具有Web 2.0特征的应用模式。因此,与其说Web 2.0是互联网技术的创新,不如说是互联网应用指导思想的革命。(37)Web 2.0的主要内容包括博客(BLOG)、RSS、百科全书(Wiki)、网摘、社会网络(SNS)、P2P、即时信息(IM)等。

2﹒百科全书(Wiki)相关技术

在Web 2.0的研究内容中,正是百科全书(Wiki)对未来词典编纂和出版几乎产生了革命性的影响。这种影响不仅是辞书编纂载体方面的,而且更为重要的是它对传统辞书编纂理念的颠覆。我们将维基百科全书问世以后的现代辞书发展时期或阶段称为“维基”时代,就是强调其重要的时代影响。在这一部分,基于Web 2.0中Wiki的特点,结合Web 2.0下百科全书的具体探究,详细介绍一下百科全书(Wiki)的有关概念和特点以及发展状况。百科全书(Wiki)指一种超文本系统,就是一种多人协作的写作工具。Wiki站点可以有多人(甚至任何访问者)维护,每个人都可以发表自己的意见,或者对共同的主题进行扩展或者探讨。百科全书(Wiki)具有如下四个特点。(1)使用方便:快速删除、存取、更改超文本页面;用简单的格式标记来取代H T M L的复杂格式标记;通过简单标记,直接以关键字名来建立链接;关键字名就是页面名称,并且被置于一个单层、平直的名空间中。(2)有组织:同页面的内容一样,整个超文本的组织结构也是可以修改、演化的;系统内多个内容重复的页面可以被汇聚于其中的某个,相应的链接结构也随之改变。(3)可增长:页面的链接目标可以尚未存在,通过点击链接,我们可以创建这些页面,从而使系统得到扩充;记录页面的修订历史,页面的各个版本都可以被获取。(4)开放性:社群的成员可以任意创建、修改、删除页面;系统内页面的变动可以被访问者观察到。

国内已有的比较有影响力的百科全书(Wiki)主要是下面这些:互动百科(http://www.hudong.com)、艺术百科(http://wiki.artcomb.com)、协作百科(http://www.knowtive.com)、天魔维客网(http://wiki.tianmo.com.cn)、康Q网(http://www.kangq.com)、中华百科(http://www.wikichina.com)、IT Wiki(http://wiki.ccw.com.cn)、网络天书(http://www.cnic.org)、维库(http://www.wikilib.com)、CookBus Wiki(http://www.cookbus.com/wiki)、天下维客(http://www.allwiki.com)、美食客(http://www.mskee.com/wiki)、网络大典WIKI(http://wiki.networkdictionary.cn)、MBA智库百科(http://www.mbalib.com)、百度百科(http://baike.baidu.com)。其中互动百科和百度百科用户量比较多且影响力也比较大。

知识就是实力。本土知识是构成一个国家智慧实力的首要资源和重要基础。百科全书(Wiki)构建的不仅仅是一个全球化的知识体,还构建了一个庞大的维基社会,在加强话语权和智慧实力方面,体现出了新的战略优势,为中国增强知识实力提供了一种选择(38)。在词典编纂领域,百科全书(Wiki)无论是对词典的编纂理念还是对具体的编纂技术都会有深远的影响。

3﹒文本挖掘的相关技术

要想使“维基”时代辞书编纂出版的现代化进程得以快速实现,文本挖掘的相关技术和知识在辞书编纂中应该得到足够的重视和应用,因为通过挖掘语料库和词典知识库中多层面上的知识,文本挖掘会使辞书编纂的数字化得到深化。

文本挖掘又称为文本数据挖掘或文本知识发现(39),从文本集中获取隐含的、以前未知的、潜在有用的知识,如关联知识、时间序列信息,甚至科学文献的创新推断和假设等(40)。文本挖掘的主要研究内容有文本特征提取、文本检索、文本自动分类、文本自动聚类、本体、自动摘要、语义网和情感计算等。文本挖掘的常用技术有自动分类、自动聚类和关联分析。自动分类就是按照一定的分类标准,计算机基于某种分类算法从已经分好类的数据中获取分类信息形成分类模型,然后用该模型对其他数据或文本进行自动分类。一般来讲,自动分类由四个步骤组成:获取训练文本数据:训练文本数据由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;选择分类方法并训练分类模型:自动分类方法有统计方法、机器学习方法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;用导出的分类模型对其他待分类文本进行分类;根据分类结果评估分类模型。

自动聚类是基于文本数据的不同特征,将其划分为不同数据类别的一个过程。文本聚类基本上由以下三个方面组成:获取结构化的文本集;执行聚类算法,获得聚类谱系图;选取合适的聚类阈值。应用比较广泛的聚类算法主要是划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。

关联分析是发现大量数据中各项之间有意义的联系,找出满足给定支持度和可信度的多个属性之间的依赖关系。获取数据之间关联的成败主要取决于语义分析得是否准确。

4﹒数字出版

数字出版是人类文化的数字化传承,它是建立在计算机技术、通讯技术、网络技术、流媒体技术、存储技术、显示技术等高新技术基础上,融合并超越了传统出版内容而发展起来的新兴出版产业。数字化出版是在出版的整个过程中,将所有的信息都以统一的二进制代码的数字化形式存储于光盘、磁盘等介质中,信息的处理与接收则借助计算机或终端设备进行。它强调内容的数字化,生产模式和运作流程的数字化,传播载体的数字化和阅读消费、学习形态的数字化。数字出版就其本质而言是传统出版的内容和计算机技术的结合,是传统出版业在发展过程中遭遇快速发展的高新技术冲击,导致原来出版形态的变化(41)。就辞书编纂出版而言,数字化出版同样也应体现上述的特点。

综上所述,未来辞书编纂出版事业现代化发展的技术保障是必不可少的,而且有着举足轻重的影响。从某种程度上来说,技术的发展进步势必会对辞书编纂出版本身的理念创新起到重要的促进作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈