经典的语义相似度计算方法

时间：2023-02-27 百科知识版权反馈

【摘要】：因此,大部分上述相似度度量方法并不适应用于检索语言的概念兼容转换。

经典的语义相似度计算方法_情报检索语言的兼容转换

5.1　经典的语义相似度计算方法

许多经典的相似度计算方法常用于信息检索和自然语言处理研究中,比如Mutual information、Dice’s index、Cosine function、Jaccard’s index、Overlap和equivalence index等^［5］。假设A和B分别为一个文献检索系统的子集,Ω表示全集,它们的定义分别为：

●Dice’s index：

●Cosine function：

●The measure N：

●Overlap measures O₁和O₂：

●Recall R和Precision P：

上述公式可以统一表示为：

检索语言的兼容转换是有方向的（directional）,或者说是不对称的（asymmetry）。由语言A向语言B转换并不等同于从语言B向语言A转换。因此,大部分上述相似度度量方法并不适应用于检索语言的概念兼容转换。主要原因在于：

●大部分现有相似度度量方法都是对称的。

●如果概念在文献数据库中出现的频率很低,那么概念之间的语义关系不能被准确地识别出来。

●它们只能度量概念之间的相似程度,而不能定义概念之间

具体的语义关系。

IM和LogL等方法并不能体现检索语言兼容转换的方向性。粗糙集是一种较为新颖的处理模糊性和不确定性的数学工具,已经被成功应用于语音识别、信息检索和图像处理等领域。结合粗糙集和检索语言的一些基本理论,建立基于粗糙集理论的检索语言兼容转换模型和算法,从而根据概念的出现频率等特征鉴别出正确的概念语义关系。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈