基于词聚类的等级关系识别

时间：2023-02-27 百科知识版权反馈

【摘要】：聚类算法能有效克服单纯按字面相似聚类等级词汇的弊端，同时把不具备这一特征的等级词汇聚集在同一个簇内。

基于词聚类的等级关系识别_自然语言叙词表自动构建研究

第6章　基于词聚类的等级关系识别

国外自动构建叙词表的方法一般通过计算语词相似度来聚集词汇，用于检索扩展，并且在提高相似度计算精度上不断改进方法，但未进一步识别词汇之间的各种关系，这样构建的词表一般不用于标引，只用于检索，适于基于关键词匹配的网络信息检索，虽然试验证明检全率有所提高，根据检全率与检准率反比规律，检准率必定会受到影响。解决方法就是进一步加强控制，明确词间等级关系。仲云云在其硕士论文《电子政务主题词表的构建及应用研究》中采用了用于同现分析的DICE测度算法结合字面相似度算法计算词汇之间的相似度，根据相似度聚集词汇，并默认词长最短的词汇为上位词，包含该词汇的词汇为下位词，其余作为相关词处理^［1］。这种做法的局限在于：①采用DICE测度计算的相似词汇列表中主要是语义相关词汇，关系松散，很难组成词族，这在其试验中也得到证实；②只从字面相似的角度出发识别等级关系词，无法识别字面上无此特点（即非字面成族）的等级关系词汇。因此，本文采用基于词聚类的等级关系识别方法，模拟“自下而上”构建词表的模式，首先通过聚类算法把表达不同主题范畴的词汇分别聚集成簇，从而确定该领域的主要组面，然后再进一步发现簇内词汇之间的等级关系，对这些组面进行细分。

聚类，就是对数据集中的数据应用某种方法进行分组，使得每组内部的数据尽可能相似而不同组之间的数据尽可能不同，从而发现数据集内在的结构。它是一种无监督的机器学习方法，被普遍应用于模式匹配和数据挖掘。早在1975年，美国情报学家兰开斯特就提出根据语词同现情况，可以生成各种类型的聚类，包括词团、词串、词星和词束^［2］。本章利用聚类分析等统计自然语言处理技术，进一步挖掘所构建的关联概念空间，发现其中潜在知识结构，自动识别词间等级关系。聚类算法能有效克服单纯按字面相似聚类等级词汇的弊端，同时把不具备这一特征的等级词汇聚集在同一个簇内。为了查漏补缺，本文同时以词素聚类方法作为辅助发现等级词汇的手段。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈