首页 理论教育 同义词挖掘系统的测评

同义词挖掘系统的测评

时间:2022-02-27 理论教育 版权反馈
【摘要】:同义词挖掘系统的测评①同义词识别质量测试分为封闭测试和开放测试两部分,结果分别如表7-2、表7-3所示。②同义词挖掘运行效率测试从表7-4的各项统计数据可以看出,基于《词林》的中文同义词挖掘实验平台的效率远高于基于词素相似度识别系统的效率。
同义词挖掘系统的测评_文本自动标引与自动分类研究

7.4.3 同义词挖掘系统的测评

(1)测评来源数据概述

下面介绍一下同义词挖掘系统的测试数据获取方法,对数据源不作介绍。

①封闭测试

教育、政治类:从《社会科学检索词表》中选取部分词的Y、D项共256对;经济类:从《社会科学检索词表》中选取部分词的Y、D项共630对;农业类:从《汉语主题词表》(自然科学)第三分册范畴索引选取部分词的Y、D项共168对;军事类:从《军事档案常用主题词表》中选取部分词的Y、D项287对。

②开放测试

教育类:《社科库》光盘中下载教育类标引关键词及部分封闭测试语料混合而成的同义与非同义词600个。

经济类:《中刊库》光盘中下载的F83金融类标引关键词及部分封闭测试语料混合而成的同义词与非同义词1 202个。

农业类:《中刊库》光盘中下载农业类标引关键词及部分封闭测试语料混合而成的同义词与非同义词500个。

政治类:《社科库》光盘中下载政治类标引关键词及部分封闭测试语料混合而成的同义词与非同义词389个。

(2)同义词挖掘系统的测评

①同义词识别质量测试

分为封闭测试和开放测试两部分,结果分别如表7-2、表7-3所示。从表7-2、表7-3的各项统计数据可以看出,无论阈值是0.33、0.5或者是0.66,结果均是使用基于《词林》的语义识别算法识别量比字面相似度算法和词素相似度算法高。在阈值提高到0.66时,词林分析法的识别性能更好,并且随着阈值的提高,三者的差别越大。这说明词素分析法确定词汇同义关系效率优于字面相似度算法,词林分析法优于词素分析法。

表7-2 封闭实验结果对照表

img94

注:*表示数据空缺。

表7-3 开放实验结果对照表

img95

注:*表示数据空缺。

字面相似度算法识别质量比较差主要有以下几个原因:

第一,以字为单位进行识别。在字的层面上,语义歧异现象很多。因为并非有相同字的词就是同义词,也并非同义词就包含相同字;并且字面相似度算法只适用于由纯汉字构成的词汇,不适用于识别纯粹由非汉字组成的词汇。第二,阈值选取上也存在困难。字面相似度存在一个现象:大量词对相似度相同的聚集现象。因而阈值的选取对不同的样本集应该不同。第三,难以应用语法规则进一步提高识别率。语词的构成方式对词义的影响也较为重要。把语词的结构也作为相似度判断的一部分,也能提高识别的准确度。但是以字为单位无法进行语词的结构分析,即使进行了结构上的考虑也是简单和机械的。

基于语义词典的语素相似度算法比字面相似度算法的识别效果好,但是不及基于同义词词林的同义词识别算法。究其原因有以下几点:

首先是歧义切分。汉语不同于西方语言,词与词之间没有空格、无明显的切分标记。汉语切分问题虽有大量的实践方法,但是真正智能化的系统还无法实现,汉语分词技术有待提高。其次,语法结构的分析还是比较简单和机械,对于修饰成分和中心成分没有有效的判别方法,对于语义上的嵌套更没有进行研究。再次,构造用于相似度比较的语义表达方式,是一个需要深入研究的问题,实际上语义表达方式是对抽象的语义信息进行数量化的过程,只有将语义信息量化后才能进行比较,因而在表达式的构造上可以进一步研究,以达到更高的识别准确率。第四,语义的识别主要是通过语义分解和对照比较来实现的,这种比较方式较为机械,对于上下位的概念关系以及非语义对应的同义词难以揭示。最后,人工标注词素、定义其范畴代码工作量巨大,词素标注更新慢,不能满足网络时代机器自动化的需要。由于要对每个词素建立字典所定义的词条格式,工作量大,限于时间和人力,朱毅华的系统中所含的词素及其定义仅有1 788条,这不能满足实际的需求。

基于同义词词林的语义识别算法比前两者效果要好,但也存在一定的问题:首先,利用同义词词林存在一个缺陷就是它是基于一般意义上的同义词而不是专业的同义词,因而有时候并不是同义词却有相同的语义代码。其次,《词林》收录的词太宽泛,不同的词是一个代码而没有进一步地区分。再次,对同义词的识别研究涉及到汉语语言学、计算语言学等许多相关知识,依据现有的语义分类体系还存在一些问题,如语义排歧问题、义类词词库的更新与维护,需要进行深入研究。

②同义词挖掘运行效率测试

从表7-4的各项统计数据可以看出,基于《词林》的中文同义词挖掘实验平台的效率远高于基于词素相似度识别系统的效率。

表7-4 同义词挖掘运行效率对照表  (单位:秒)

img96

注:带“*”的数据仅做效率测试用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈