首页 百科知识 自然语言叙词表的性能评价

自然语言叙词表的性能评价

时间:2022-02-27 百科知识 版权反馈
【摘要】:7.5 自然语言叙词表的性能评价对于叙词表的评价,兰开斯特等学者就测试方法进行讨论,并提出一系列评价指标,常用的评价指标有:入口率、关联比、参照度、先组度[2]。下文以这些指标为依据对所构建的财税自然语言叙词表进行质量考察。但入口率低于国外其他电子政务主题词表,说明入口率仍有提升的空间,在实际使用中仍需补充自然语言入口词。
自然语言叙词表的性能评价_自然语言叙词表自动构建研究

7.5 自然语言叙词表的性能评价

对于叙词表的评价,兰开斯特等学者就测试方法进行讨论,并提出一系列评价指标,常用的评价指标有:入口率、关联比、参照度、先组度[2]。下文以这些指标为依据对所构建的财税自然语言叙词表进行质量考察。

(1)入口率

入口率又称等同率,指词表中非叙词和叙词的比率,该指标主要用于评测词表对同义词和准同义词的控制程度。入口率越高,表明系统提供检索入口越多,从而提高了词表的易用性。其计算方法为:

入口率=具有等同关系的入口词数量/词表内核部分正式主题词数量

倪静曾比较国内几部重要的主题词表与国外部分电子政务词表的入口率,如表7-2所示:

表7-2 叙词表入口率[3]

img86

财税词表内核部分主题词的入口词总数为1 041个,正式主题词为1 272个,入口率达到0.82,高于以上国内主题词表。因财税自然语言叙词表将应用于网络环境,考虑到用户检索表达形式多种多样,为达到较高检准率,词表应尽量提高入口率,所以本文结合使用模式匹配和词面相似度算法来识别同义词,收集入口词比较全面,财税自然语言叙词表属于领域词表,收入本领域词汇较多,通用词较少,也是入口率较高的一个原因。但入口率低于国外其他电子政务主题词表,说明入口率仍有提升的空间,在实际使用中仍需补充自然语言入口词。另外,对于核心部分的每个主题词,由关联概念空间可以查询到与之关联的外壳词汇,相应的,以外壳词作为检索入口,均可以查询到最相关的内核词汇,无形中也增加了检索“入口”。这基本符合网络检索过程中对概念表达形式多样的状况。

(2)参照度和关联比

前者指词表中内核部分词汇具有交互参照的平均数,后者指词表内设有交互参照的词与内核总词数的比率,其中交互参照指属项、分项或参项参照关系,二者相结合表明词表中词汇之间的联系强度。国外学者认为,参照度的理想值在2—5之间。参照度过低,无法对词间关系进行必要的揭示,但过高的参照度有可能收入一些次要的词汇联系,给使用者增加负担。

img87

经统计,财税词表的参照度为6.5,关联比为94%。参照度和关联比较高的原因是,通过同现统计词汇关联方法构建词表,易于聚集相关词汇,建立词汇之间的参照关系,尤其参项参照数量很多。为了避免产生不必要的词汇联系,人工审核确定词间相关关系时,可重点考察一定关联度阈值以上的词间关系。

(3)先组度

先组度指内核部分词汇平均每个词包含单个字符的数量。较高的先组度表明词表的标引专指度较高,能够减少误组配现象,预示检索时会得到较高的检准率。但是先组度过高也会影响词汇组配表达概念的灵活性。所以先组词的数量应该保持适当的比例。经过统计,财税词表内核部分1 272个词汇的先组度为3.72,《电子政务主题词表》范畴表税务部分共收录175个词汇,先组度为3.74,二者相当。财税词表在领域文献库基础上构建,收录词汇大部分直接来源于领域文本,对概念的揭示更专指,能够确切表达文献主题和用户需求,适用于网络信息标引和检索。

财税词表建立在良好的文献保障和用户保障基础上,通过对财税词表核心部分控制词汇就入口率、关联比、参照度、先组度和领域覆盖程度进行测评。结果表明,相对以往词表,财税词表具有较高的入口率,词汇组织较为紧密,对财税领域概念揭示专深,基本覆盖了财税领域主题概念,适于网络环境下财税信息资源标引和检索的要求。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈