首页 百科知识 关联算法介绍

关联算法介绍

时间:2022-02-27 百科知识 版权反馈
【摘要】:对称关联度计算方法更符合人们的习惯,也便于在已计算得出的关联度基础上对词汇关系进一步分析和研究,挖掘出更深入的信息和知识。词语相互之间的关联度是一个0到1之间的数值,通过计算语词在文本训练库中的同现情况得出,其大小代表了词语之间的关联程度。信息检索领域常用基于统计学习的关联算法有互信息、DICE测度、Jaccard系数、开方统计、极大似然比等方法[8],以下简要介绍其中的几种算法。
关联算法介绍_自然语言叙词表自动构建研究

5.3.1 关联算法介绍

信息检索领域中有多个同现分析算法用来计算关联度,分为对称关联度算法和不对称关联度算法两种。不对称关联度算法认为两词语之间的关联程度是不相等的,即从词汇A到B的关联强度与词汇B到A之间的关联强度不同。美国学者Chen是该理论的提出者[7]。对称关联度算法则认为两词汇之间的关联度是一个统一的数值,没有方向区别。对称关联度计算方法更符合人们的习惯,也便于在已计算得出的关联度基础上对词汇关系进一步分析和研究,挖掘出更深入的信息和知识。

词语相互之间的关联度是一个0到1之间的数值,通过计算语词在文本训练库中的同现情况得出,其大小代表了词语之间的关联程度。当两词之间的关联度为0时,表示它们毫不相关,也就是从来不同时出现在同一篇文献中;当关联度接近1时,表示在文本库中,这两个词密切相关。

信息检索领域常用基于统计学习的关联算法有互信息、DICE测度、Jaccard系数、开方统计、极大似然比等方法[8],以下简要介绍其中的几种算法。

(1)互信息

互信息是一种来自信息论的方法。假设事件A和B分别出现的概率为P(A),P(B),同时出现的概率为P(A,B),那么A、B之间的互信息MI(A,B)表示为:

img28

若MI(A,B)>0,则表示A,B是高度相关的;

若MI(A,B)=0,则表示A,B是独立的;

若MI(A,B)<0,则表示A,B是相互排斥的。

(2)DICE测度

该公式来自集合论中,设S1,S2为两个集合,则两个集合的DICE测度公式如下:

img29

利用DICE测度可以很好地计算词与词之间的相关度。它排除了零概率事件的发生。

(3)Jaccard系数

Jaccard系数的计算公式如下:

img30

(4)极大似然比

极大似然比的计算公式如下[9]

img33

其中,A表示有词A出现的文献数,B表示有词B出现的文献数,~B表示词B不出现的文献数,A∩B表示词A和词B共现的文献数,A∩~B表示词A出现,词B不出现的文献数,P=(|A∩B|+|A∩~B|)/(|B|+|~B|),假设P(A|B)=P(A|~B)=P(A),则:P1=|A∩B|/|B|和P2=|A∩~B|/|~B|分别是P(A|B)和P(A|~B)的最大值。

各种关联算法虽然定义方式不同,但本质上都是计算合集|A∩B|对原来集合A和B的影响程度。有学者经研究得出结论:如果对上述相似性函数进行适当的归一化处理,则会发现它们提供几乎相同的检索性能[10]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈