基于本体的词语相似度计算方法

时间：2023-02-27 百科知识版权反馈

【摘要】：7．2．2　基于本体的词语相似度计算方法近年来，一些大规模、可计算的本体，如WordNet、MindNet等的开发和利用，为进行大规模真实文本的语义分析和理解提供了有利的支持。该技术的基本假设为：在本体中距离越近的义原或词汇，则它们的相似度越大。国外学者主要是利用WordNet作为本体进行了词语间语义相似度计算的研究。刘群等人利用How Net来计算词语间语义相似度，提出义原相似度的计算方法和实词概念的相似度计算方法［18］。

基于本体的词语相似度计算方法_文本自动标引与自动分类研究

7．2．2　基于本体的词语相似度计算方法

近年来，一些大规模、可计算的本体，如WordNet、MindNet等的开发和利用，为进行大规模真实文本的语义分析和理解提供了有利的支持。国外已经对英语词的相似度和自动聚类做了一些基础性的研究，而国内这方面的研究才刚刚开始。随着近年来“知网”等本体知识模型的出现和不断完善，对汉语语义方面的研究又开始盛行起来。该技术的基本假设为：在本体中距离越近的义原或词汇，则它们的相似度越大。根据Ontology计算词语语义距离的方法，一般是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树型图中，任何两个结点之间有且只有一条路径。于是，这条路径的长度就可以作为这两个概念的语义距离的一种度量^［12］。

国外学者主要是利用WordNet作为本体进行了词语间语义相似度计算的研究。Philip Resnik提出了基于结点信息量（或者说是结点所包含的概念内容）的计算方法^［14］，把计算两个词汇的相似度转化为计算两个概念所含有的共同信息量的多少。Richardson等人提出了基于语义距离的方法即计算路径方法^［15］，要计算两个词之间的语义相似度实际上就是计算树型结构中两个结点之间的路径距离，两个结点之间的路径越短，表示它们越相似。除了考虑结点间路径的长度外，还考虑了概念层次树的深度和密度，以及各结点之间的上下位、整体与部分、同义等关系，给结点之间的路径赋予不同的权重。Agirre等人在利用WordNet计算词语的语义相似度时，除了结点间的路径长度外，还考虑到了其他一些因素，例如概念层次树的深度和概念层次树的区域密度^［16］。

国内基本上是借助于How Net或者《同义词词林》来进行研究的。如穗志方、俞士汶等人都是利用《同义词词林》来计算词语间语义相似度^［17］。刘群等人利用How Net来计算词语间语义相似度，提出义原相似度的计算方法和实词概念的相似度计算方法^［18］。李素建等人则综合利用了《知网》和《同义词词林》。在义原相似度的计算过程中，不仅考虑了义原之间的上下文关系，还考虑了义原之间的其他关系。在计算词语相似度时，加权合并了《同义词词林》的词义相似度、《知网》语义表达式的义原相似度和义原关联度^［19］。

这些词表资源都是手工构建的，无需机器学习，能够保证一定程度的质量，但是以花费大量的人力为代价的，这些手工构建的词典的主要局限性在于所收录的词汇的覆盖面狭小，尤其是科技类的术语，它们的词义分割的词义颗粒度太细，而且在信息检索领域中，检索用词的专指性很强，都是一些专业术语和复合概念。在对这些专指概念进行语义相似度计算的时候，要把专业术语概念先转化成词表中收录的最小的概念单元，然后对各个概念单元进行相似度的计算。在进行转化的时候，可能存在转化的歧义问题，如何解决复杂的专业术语概念转化问题，也是需要迫切解决的关键问题。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈