首页 百科知识 基于领域本体的语义检索性能测试

基于领域本体的语义检索性能测试

时间:2022-02-27 百科知识 版权反馈
【摘要】:6.6 基于领域本体的语义检索性能测试6.6.1 评价指标检全率与检准率检全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
基于领域本体的语义检索性能测试_领域本体的半自动构建及检索研究

6.6 基于领域本体的语义检索性能测试

6.6.1 评价指标

(1)检全率与检准率

检全率(Recall)是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。检准率(Precision)是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。检准率和检全率结合起来,描述了系统的检索成功率。

假设有四个参数:a,b,c,d

a+b+c+d=测试集中的全部文献;

a+b=某次检索检出的文献;

a+c=与某一检索要求有关的文献;

a=检准的文献;

b=误检的文献;

c=漏检的文献;

d=无关的文献。

则有:

img102

(2)F测度

使用检全率和检准率能够比较客观地评价检索结果,但是,检全率和检准率之间存在着一定的互逆性。因此,为了比较客观的测评检索结果,有学者使用结合检全率和检准率的方法提出Macro-F1测试指标。采用该公式可以综合考虑检准率和检全率,比较全面的测评检索结果,因此应用较广。

对于某一检索提问来说,

img103

其中,P与R分别表示该类目的检准率和检全率。

则整个系统的Macro-F1测试指标为:

img104

其中,m为检索提问的总数。

6.6.2 评价方法

为了验证基于领域本体的语义检索的检索性能,本文采用了与传统关键词检索进行检索性能对比的方法,使用相同的测试集和检索提问,采用检全率、检准率和F测度三个指标对检索效果进行评价。

(1)测试集的选取

目前,在农史领域尚缺乏像TREC这样的标准测试集。在测试集的构建上,本文从《中国农史论文全文数据库》[28]中抽取了1980—2004年《中国农史》、《农业考古》、《农史研究》以及《古今农业》四种期刊中与农学相关的研究论文(主要是大田作物)包括作物品种、选种育种、耕作技术与耕作制度、田间管理、农产品加工以及农书研究等类目的研究论文2 196篇,其他数据352篇,按照一定的比例分布构成本次测试的测试集。

(2)检索提问的设置

检索提问的类型主要分为三种:一种是关于宽泛概念的检索,例如,检索“农作物”的研究论文;第二种是关于精确概念的检索,主要是对某个特定概念的检索,例如,检索关于“马铃薯”的研究;第三类是关于语义关系的检索,这类检索通常为两个以上的关键词且关键词之间存在着密切的语义关系,例如,检索“宋代栽培技术”。

我们根据农学的研究内容,按照上述三种提问类型,每个提问类型下设置三个检索提问,共选取了9个检索主题进行测试,检索测试提问集如表6-1所示。

表6-1 检索测试提问集

img105

(3)检索相关性的评价

关于检索的相关性存在着多种流派[29],在本次测试中,我们采取对系统判断出的相关文献进行人工评价的办法,将检索结果进行手工相关性判断,考虑到易操作性,本次实验仅简单将结果分为相关和不相关两种评判结果。

6.6.3 评价结果及结果分析

(1)测试结果

检索性能的测试结果如表6-2所示,表格的横向分别是基于本体和基于关键词(简称为Ontology和Keyword)两种检索的检全率、检准率和F值数据,纵向为检索类型,按照提问式进行组织。从图6-20到图6 -22分别是两种检索方式的三个检索指标对比折线图。

表6-2 Ontology&Keyword检索结果对比分析数据表

img106

img107

图6-20 检全率对比表

img108

图6-21 检准率对比表

img109

图6-22 F值对比表

(2)结果分析

在检全率方面,基于本体的语义检索的检全率明显高于基于关键字的检索方式(见图6 -20)。对于宽泛概念的检索,由于本体收录了宽泛概念所包含的实例,因而检全率明显高于关键词方式。精确概念的检索方面,虽然本体收了概念的同义词,但由于大多数作者对于某一概念习惯于某一种词形方式表达,如“玉米”虽然有多种同义词,但是大多数农史研究人员仍习惯于采用“玉米”这一词形方式来表达,因而本体在同义词控制方面并没有特别明显的优势。在语义关系的检索方面,由于本体参与计算检索词之间语义关系的计算,因而比关键词方式能发掘出更多的隐含概念,因此检全率也高于关键词方式。

在检准率方面,宽泛概念的检索和精确概念的检索两种检索方式,基于本体的语义检索和关键词检索两者的检索精度并没有过大的优势对比,甚至对于某个检索提问,基于本体的检索精度低于关键词检索方式,这主要是由于本体方式检索出了过多的相关概念,然而在语义关系检索上,基于本体的语义检索方式在检索精度上比关键词方式表现出了明显的优势,这也正验证了本体可以挖掘检索词的深层语义含义,不仅限于检索词字面的符号形式(见图6-21)。

在F值对比图(图6-22)中,我们可以明显地发现基于本体和基于关键字两种检索机制在宽泛检索、精确检索和语义检索三种检索类型中的不同性能。宽泛概念检索以及语义关系检索由于涉及了隐含概念的查询,因而表现出了比关键词检索更高的检索性能。而在精确概念的检索由于用户的检索意图已经表述的十分清晰,在这种类型的检索上,基于本体的检索在检索性能上反而略低于关键词检索方式,这主要是由于通过检索本体获取了更多的扩展概念,导致了检索精度的下降。

(3)系统不足

通过对基于领域本体的语义检索系统的测试分析,发现了系统在语义检索机制方面还存在着一些不足。在语义关系判断上,目前对于本体系统中存在的语义模式可以成功匹配到,但是对于无法精确匹配到的语义类型目前还不能做到模糊匹配。在对本体进行隐含概念的查找的精度还不够,这也是对精确概念检索的检准率不高的原因。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈