词的语义相似度计算方法

时间：2022-02-27 百科知识版权反馈

【摘要】：Nagao同时利用等级语义词典和同义词典计算语义相似度时发现，基于同义词典的方法得到更高的相似度值，而采用等级语义词典计算的结果并不理想［4］。Resnik把词典分类结构与经验概率结合起来，设计了一种基于信息量的分类相似度计算方法，用语义词典中包含目标词汇W1和W2并在表达信息最接近的概念的熵值表示它们之间的形似度［6］。

词的语义相似度计算方法_自然语言叙词表自动构建研究

6．1．2　词的语义相似度计算方法

对词汇之间的语义相似度进行量化有多种途径，目前常用的相似度计算方法有两种：

（1）基于语义词典计算相似度

这种方法依靠一部独立的具有等级结构的语义词典（如Word Net），又叫概念距离法。两词汇W₁和W₂的语义相似度，用它们在语义词典中对应的节点之间的路径距离表示，节点之间的路径距离越短，它们就越相似^［3］。这种词汇相似度计算方法存在明显的缺陷：①除等级连接外，其他连接类型对于计算语义相似度也很有用。Nagao同时利用等级语义词典和同义词典计算语义相似度时发现，基于同义词典的方法得到更高的相似度值，而采用等级语义词典计算的结果并不理想^［4］。②采用路径长度计算相似度的方法潜在假设前提是，等级之间的连接代表相同的距离长度，而实际上，越底层的节点层次之间的距离越紧密，上层与上上层之间的语义分布越稀疏。为了克服层次之间距离不同的问题，Agirre和Rigau提出了一种“概念密度”计算方法，除路径长度外，该计算方法对节点所在层次深度和相关节点所在等级层次的密度同样敏感^［5］。Resnik把词典分类结构与经验概率结合起来，设计了一种基于信息量的分类相似度计算方法，用语义词典中包含目标词汇W₁和W₂并在表达信息最接近的概念的熵值表示它们之间的形似度^［6］。

（2）基于词汇分布情况计算相似度

该方法根据对两个词汇出现的上下文重叠程度计算它们之间的相似度。理论依据是，词汇W的语义内容能用与其在语料库中经常出现的词来表达，如果目标词汇W₁和W₂的同现词汇有很大重叠，那么它们在语义上很相似。这种方法的关键技术在于如何定义目标词汇的相关词汇分布以及计算分布距离的方法。

在Brown^［7］等的词聚类研究中，每个目标词Ti用与其共同出现在同一篇文章中的其他词汇来描述，词汇T的上下文信息可以表示为一个向量C（T_i）＝〈｜W₁｜，｜W₂｜，…，｜W_N｜〉，并用平均互信息公式计算词对之间的距离（相似度）。另一种方法结合语言学知识，以目标词汇在特定句法结构中出现情况作为上下文信息，统计词汇之间的相似度^［8^］。以“动宾”关系出发，把语料库中目标名词T作为直接宾语的动词分布作为描述名词T含义的上下文信息，再进一步计算词对之间的相似度。Federici，S．^［9］用“动词—宾语”和“动词—主语”两种句法关系计算词汇相似度。如果两个名词作为主语或宾语，有一定数量的相同谓语动词，则认为它们语义相似。

第一种方法在计算词对相似度时完全依赖于语义词典，相似度计算结果对语义词典的收词质量和完备情况很敏感，而目前现有语义词典资源有限，在短时间内编制一部精良的语义词典也很不现实。第二种基于分布情况计算相似度的方法，把同现窗口用句法关系缩小在“动词—宾语”和“动词—主语”范围内，使得相似度计算精度提高很多。但相对英语，汉语句法关系更为复杂，有些词在不同上下文中可能表现为不同词性，动词和名词在不同时态中无数和量的变化，很难识别。同时需要引入词性标注，操作过于复杂，生成的词间关联有可能较为松散，质量无法保障。由于财税文献一般为通告、评论类，文章简短概要，在收录的训练库中，500字以下的文章数占半数以上。本文的做法是，以单篇财税网页文本为同现窗口，把目标词汇在文本训练库中同现关联最高的K（K＝50）个词汇作为其特征向量，再进一步计算词汇之间语义相似度。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈