首页 百科知识 交叉转换和三种方法的性能分析

交叉转换和三种方法的性能分析

时间:2022-02-27 百科知识 版权反馈
【摘要】:尽管如此,由人工建立的“交叉转换”无疑仍然是准确性最高的。德国社会科学信息中心经过多年的研究实践,编制了“交叉转换”,建立了基于条件概率的概念转换关系。但是,RST实验结果数量明显少于“交叉转换”中定义的概念转换关系。例如,SWD向IZ转换的实验结果错误率超过50%。这说明RST方法性能比较稳定,是一种适应较广的有效概念兼容转换方法。
实验评估_情报检索语言的兼容转换

5.5 实验评估

任何检索语言的兼容转换,概念之间的语义相关性判断都是非常主观的[4]。尽管如此,由人工建立的“交叉转换”无疑仍然是准确性最高的。德国社会科学信息中心经过多年的研究实践,编制了“交叉转换”,建立了基于条件概率的概念转换关系(简称STD)。两者已经应用于多个集成信息检索系统中。下面,我们将比较分析RST、“交叉转换”和STD三种方法的性能,具体评估指标如下:

(1)查全率

img151

(2)查准率:

img152

(3)匹配率:RST(或者STD)的实验结果与“交叉转换”的匹配程度。

(4)错误率:人工鉴别出的错误转换关系占RST(或者STD)实验结果的比例。

为了进一步验证RST方法的有效性,我们在并行文献数据库USB进行了相同实验,两个数据库分别用SWD和IZ标引。在STD方法中,DDB是训练集,USB是测试集。评估结果见表5-4和表5-5,其中综合方法是指合并三种方法的实验结果。

表5-4 三种方法的性能比较(SWD→IZ)

img153

表5-5 三种方法的性能比较(IZ→SWD)

img154

从检索性能的角度来看,RST明显优于STD和“交叉转换”。一般来说,查全率提高,查准率必然会降低,反之亦然。比较有趣的是,RST同时提高了查全率和查准率。从错误率来看,RST的准确率大大高于STD。但是,RST实验结果数量明显少于“交叉转换”中定义的概念转换关系。主要原因:一方面,“交叉转换”中定义的许多转换关系在实际应用系统中是无效的。例如:

阿富汗难民(SWD)→亚洲 难民(IZ)

标引词串“亚洲AND难民”从未用于标引数据库B中的任何文献。另一方面,数据库B中标引词因为出现频率小于4或者与目标语言中标引词的共现频率非常低而无法建立概念转换关系。另外,实验发现,部分“交叉转换”中的转换关系不如RST的实验结果准确。例如:教育机会(IZ)→教育(SWD)

RST的转换结果为:教育机会(IZ)→教育 平等机会(SWD)

从实验结果来看,STD方法的性能并不稳定。例如,SWD向IZ转换的实验结果错误率超过50%。其2img155左右的转换关系为“一对多”转换,但是大部分都是错误的。相反,RST在USB和DDB上的性能比较接近。这说明RST方法性能比较稳定,是一种适应较广的有效概念兼容转换方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈