首页 百科知识 同义词挖掘概述

同义词挖掘概述

时间:2022-02-27 百科知识 版权反馈
【摘要】:在研究同义词的挖掘之前,首先对同义词这一概念进行分析,明确其具体含义并对其进行分类,以便有针对性地识别出同义词。“确定同义词的依据是部分意思相同或在一定语言环境中意思相同”[27]。结合以上的观点,对同义词的概念可以归纳为同义聚合的词称为同义词,同义词是一组意义相同或相近的词[30]。与这种理解方式相似的方法是将同义词分为同义词和准同义词。同年,阮晓明对同义词词表的手工研制进行了研究[35]。
同义词挖掘概述_文本自动标引与自动分类研究

7.4.1 同义词挖掘概述

(1)同义词概述

在信息检索、信息提取和数据挖掘等研究领域中,常常涉及到同义词这一概念,不少的自然语言处理系统(如信息检索系统、机器翻译系统、数据挖掘系统等等)中也逐渐增加了同义词控制这一功能。随着海量信息的出现和不断增加,同义词控制显得更加重要。例如在信息检索系统中,利用同义词控制可以更好地识别文章的主题,便于文章的自动分类;在检索阶段,利用同义词扩展检索可以在不影响检准率的前提下提高检全率;具有概念检索功能的网络信息检索工具可借助于一个同义词表对用户输入的关键词自动添加同义词,有助于提高检全率,但不会降低检准率[24]。在研究同义词的挖掘之前,首先对同义词这一概念进行分析,明确其具体含义并对其进行分类,以便有针对性地识别出同义词。

早在20世纪50年代早、中期,就有关于什么是同义词的热烈讨论,以后又有新的提法。不同阶段都有一些总结、评析的专论,至20世纪90年代初,有周荐的专著《同义词语的研究》[25]。有关同义词的说法有不少较有影响,例如:张世禄于1984年指出:“同义词是指不同的词、而它们所表示的某种概念或某种用法基本上相同”[26]。洪成玉于1983提出:“同义词实际上是词义有同有异的近义词,它不等于等义词。”“确定同义词的依据是部分意思相同或在一定语言环境中意思相同”[27]。周光庆于1989年提出:“同义词的‘同’,是以‘义位’为单位观察的几个多义词,只要它们的某一个义位所反映的是同一类事物,这几个多义词就在某个义位上构成同义关系,就是一组同义词”[28]。郭锡良等于1992年提出:“同义词是指意义相同或相近的词。意义完全相同的词叫等义词或绝对同义词,这类词数量很小。绝大部分同义词都只是部分意义相同。”“同义词的‘同’,是就义项讲的,而不是就词义系统讲的。”“所谓同义,是指相关词的一个或几个义项相同,而不可能是全部义项相同”[29]

根据《现代汉语词典》对“同义词”的解释,即:意义相同或相近的词[23]。结合以上的观点,对同义词的概念可以归纳为同义聚合的词称为同义词,同义词是一组意义相同或相近的词[30]

   A            B   

自行车——脚踏车     儿童——孩子

马达——发动机      生日——诞辰

A、B组都是同义词,A组词意义完全相等,也叫等义词。人们认为这种词除了造成语言累赘、增加使用者负担以外,没什么积极意义。所以,等义词在语言词汇中的存在,总是暂时的、不稳定的。两个等义词在人们使用过程中,不是意义上有了分化,变成意义相近或毫不相干的词,就是干脆被淘汰一个。等义词的数量在任何语言中都是极少的。B组词是意义基本相同的词,所谓基本相同,是说它们之间还有细微的意义(它们表示的理性意义或色彩意义)差别,这种词也叫做近义词。

与这种理解方式相似的方法是将同义词分为同义词和准同义词。其中同义词是语义相同而词形不同的语词,可细分为:一般语义同义词、学名与俗名、全称与简称、新称与旧称、产品的代号与型号等;准同义词是指含义相近,或虽然含义不同,但存在一定联系,可以根据检索需要,将它们按同义词方式处理的词,可细分为:近义词、反义词、泛指词与专指词等[31]

基于以上对同义词的认识,提出了广义同义词这一概念。所谓广义同义词是指按特定概念聚合的单词集合,广义同义关系是概念的等同关系。概念关系除了广义同义关系外,还包括上下位关系、整体与部分关系等等。

常见的概念聚合的方式有:同义聚合,如前例;反义聚合,如和平——战争、投标——招标、买——卖等等;关联聚合,如软件——信息技术、交易——收益等等。按照这些概念聚合的方式可以将广义同义词分为以下几类:

①等义词。即意义完全相等的词。如自行车——脚踏车、微机——电脑、马达——发动机等等,通过常规的字面相似度算法很难识别出这一类同义词。

②近义词。即意义基本相同的词,也就是说若几个词含有义项基本相同,就可以把这些词看作近义词,如住房——住宅、边疆——边境等,这类词在广义同义词中占很大比例,因此所说的广义同义词挖掘主要指这类词。

③反义词。即反义聚合的词,是指两个意义相反或相对的词。这类词含有相同的概念主题,但所表示的概念是互不相容或彼此处于相反方向的顶点,如买——卖、冷——热等等。

④相关词。即关联聚合的词,是指在一定语境中彼此有关联的词。这类词在一个文档中经常相互出现,但彼此又不构成等义、近义、反义等关系,所以成为关联关系。因为它们出现在具体的语境当中,所以挖掘关联词的问题涉及到计算机语言学和统计学等领域的知识。

⑤其他同义词。主要包括学名与俗名、全称与简称、新称与旧称、产品的代号与型号等等,这类词一般是出于人们书写和交流词汇的方便而形成的,如中央银行——央行、SS-1导弹——“飞毛腿”导弹等等。

(2)中文同义词识别的相关研究工作

对同义词识别的研究最初主要来自于情报界,同义词控制作为一种有效的检索后控制方式已被越来越多的信息检索系统所采用。20世纪末,由于网络信息的快速膨胀,用户在查找网络信息时遇到许多问题,为了提高查全率,许多搜索引擎都推出同义词扩展检索,但实际运用的效果不是很明显。

中文同义词的识别或研制方面,相关的研究工作主要包括如下几个方面:1993年,王源利用字面相似性原理设计相似度算法,通过计算词间相似度来确定词间关系,实现自然语言后控制规范[32]。1994年,宋明亮利用相似度算法计算词间相似度以进行词汇归类,在辅以人工判别的基础上实现后控制词表的动态维护[33]。1999年,吴志强在王源、宋明亮算法的基础上引入了重心后移规律,即根据词素(字)在词中的不同位置设定不同的权重,改进了字面相似度识别算法,提高了识别的效率[34]。同年,阮晓明对同义词词表的手工研制进行了研究[35]。2001年,朱毅华提出了基于词素的同义词语义识别算法,该算法首先将复合词切分为词素,并在此基础上对词素进行语义分解和标注来进行同义判别。通过与字面相似度算法进行对比测试,证明了该算法具有相对较高的识别率,对智能搜索引擎的概念检索有一定的应用价值[36]。2006年,陆勇、侯汉清提出从词典释义中使用模式匹配方法提取中文同义词的方法[37],2008年,他们利用PageRank算法进行汉语同义词的自动识别研究[38]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈