首页 百科知识 经典的语义相似度计算方法

经典的语义相似度计算方法

时间:2022-02-27 百科知识 版权反馈
【摘要】:因此,大部分上述相似度度量方法并不适应用于检索语言的概念兼容转换。
经典的语义相似度计算方法_情报检索语言的兼容转换

5.1 经典的语义相似度计算方法

许多经典的相似度计算方法常用于信息检索和自然语言处理研究中,比如Mutual information、Dice’s index、Cosine function、Jaccard’s index、Overlap和equivalence index等[5]。假设A和B分别为一个文献检索系统的子集,Ω表示全集,它们的定义分别为:

img115

●Dice’s index:

img116

●Cosine function:

img117

●The measure N:

img118

●Overlap measures O1和O2

img119

●Recall R和Precision P:

img120

上述公式可以统一表示为:

img121

检索语言的兼容转换是有方向的(directional),或者说是不对称的(asymmetry)。由语言A向语言B转换并不等同于从语言B向语言A转换。因此,大部分上述相似度度量方法并不适应用于检索语言的概念兼容转换。主要原因在于:

●大部分现有相似度度量方法都是对称的。

●如果概念在文献数据库中出现的频率很低,那么概念之间的语义关系不能被准确地识别出来。

●它们只能度量概念之间的相似程度,而不能定义概念之间

具体的语义关系。

IM和LogL等方法并不能体现检索语言兼容转换的方向性。粗糙集是一种较为新颖的处理模糊性和不确定性的数学工具,已经被成功应用于语音识别、信息检索和图像处理等领域。结合粗糙集和检索语言的一些基本理论,建立基于粗糙集理论的检索语言兼容转换模型和算法,从而根据概念的出现频率等特征鉴别出正确的概念语义关系。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈