首页 百科知识 基于词聚类的等级关系识别

基于词聚类的等级关系识别

时间:2022-02-27 百科知识 版权反馈
【摘要】:聚类算法能有效克服单纯按字面相似聚类等级词汇的弊端,同时把不具备这一特征的等级词汇聚集在同一个簇内。
基于词聚类的等级关系识别_自然语言叙词表自动构建研究

第6章 基于词聚类的等级关系识别

国外自动构建叙词表的方法一般通过计算语词相似度来聚集词汇,用于检索扩展,并且在提高相似度计算精度上不断改进方法,但未进一步识别词汇之间的各种关系,这样构建的词表一般不用于标引,只用于检索,适于基于关键词匹配的网络信息检索,虽然试验证明检全率有所提高,根据检全率与检准率反比规律,检准率必定会受到影响。解决方法就是进一步加强控制,明确词间等级关系。仲云云在其硕士论文《电子政务主题词表的构建及应用研究》中采用了用于同现分析的DICE测度算法结合字面相似度算法计算词汇之间的相似度,根据相似度聚集词汇,并默认词长最短的词汇为上位词,包含该词汇的词汇为下位词,其余作为相关词处理[1]。这种做法的局限在于:①采用DICE测度计算的相似词汇列表中主要是语义相关词汇,关系松散,很难组成词族,这在其试验中也得到证实;②只从字面相似的角度出发识别等级关系词,无法识别字面上无此特点(即非字面成族)的等级关系词汇。因此,本文采用基于词聚类的等级关系识别方法,模拟“自下而上”构建词表的模式,首先通过聚类算法把表达不同主题范畴的词汇分别聚集成簇,从而确定该领域的主要组面,然后再进一步发现簇内词汇之间的等级关系,对这些组面进行细分。

聚类,就是对数据集中的数据应用某种方法进行分组,使得每组内部的数据尽可能相似而不同组之间的数据尽可能不同,从而发现数据集内在的结构。它是一种无监督的机器学习方法,被普遍应用于模式匹配和数据挖掘。早在1975年,美国情报学家兰开斯特就提出根据语词同现情况,可以生成各种类型的聚类,包括词团、词串、词星和词束[2]。本章利用聚类分析等统计自然语言处理技术,进一步挖掘所构建的关联概念空间,发现其中潜在知识结构,自动识别词间等级关系。聚类算法能有效克服单纯按字面相似聚类等级词汇的弊端,同时把不具备这一特征的等级词汇聚集在同一个簇内。为了查漏补缺,本文同时以词素聚类方法作为辅助发现等级词汇的手段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈