首页 百科知识 领域本体等级关系获取

领域本体等级关系获取

时间:2022-02-27 百科知识 版权反馈
【摘要】:目前存在很多聚类算法,根据算法的复杂度和适应环境,我们对层次聚类算法进行了一定改造后用于古农学本体等级体系的获取。此外,层次聚类算法的聚类结果和聚类的粒度过于详细,不符合本体生成的等级要求。
领域本体等级关系获取_领域本体的半自动构建及检索研究

5.2 领域本体等级关系获取

根据文献[14]介绍的词类划分标准认为同一类词必能进入一些同样的上下文环境。因此,根据这种观点,如果两个概念在语料集合中所处的语言环境总是非常相似,我们就可以认为这两个概念彼此非常相似,从而认定这两个词是属于同一类。

在本研究中,我们认为的上下文环境是在同一篇文本中,因此我们的做法是对古农学研究语料文本进行自动标引,获取能代表该文本主题的若干个概念,用相关度统计方法计算每个概念出现的相同上下文环境(与哪些概念同时出现),用这些词来表达概念。在有了词上下文环境的情况下,通过一定的聚类算法来将上下文环境相似的概念聚类,形成概念的等级体系。

目前存在很多聚类算法,根据算法的复杂度和适应环境,我们对层次聚类算法进行了一定改造后用于古农学本体等级体系的获取。

5.2.1 层次聚类算法

层次聚类算法(Hierarchical Clustering)是一种自底向上的“硬”聚类方法,实际上是一种贪心算法。每个对象都被初始化一个类别集合,然后判断最相似的两个聚类,将它们合并为一个类。当只存在一个包含所有对象的类时算法终止,整个算法描述如下[15]

1 Given:a set X={x1,…,xn}of objects

2 a function sim:P(X)*P(X)→R

3 for i:=1to n do

4 Ci:={xi}end

5 C:={c1,…,cn

6 j:=n+1

7 while|C|>1

8 (cn1,cn2):=argmax(cucv)∈C*Csim(cu,cv

9 cj:=cn1∪cn2

10 C:=C\{cn1,cn2}∪{cj

11 j:=j+1

这种算法优点在于:聚类结果可以生成一个有序的聚类实体,聚类详细,可以细致地刻画聚类结果。算法的缺点在于:时间复杂度很高,处理速度慢。

在层次聚类算法中有两个核心问题:

(1)相关度计算方法[16]

img26

(2)类中心的计算方法[17][20]

①单连通(Single Linkage)

单连通方法是计算两个聚类中最相似的样本之间的相似度,也就是计算两个聚类之间的最短距离。这种方法容易引起聚类区域拉长的链式效应(Chaining Phenomenon)。

img27

图5-4 单连通计算示意图

②全连通(Complete Linkage)

全连通方法是计算两个聚类中最不相似的样本之间的相似度,也就是计算两个聚类之间的最长距离。全连通方法能够改善单连通的不足,但是有一定的数据要求,在数据集噪音较大的情况下效果很差,如果数据集具有一定的紧凑度会取得较好的效果。

img28

图5-5 全连通计算示意图

③平均连通(Average Linkage)

平均连通是上述两种方法的一个折中方案,它既不计算聚类中样本之间的最长距离(全连通方法),也不计算聚类中样本之间的最短距离(单连通),而是计算样本之间的平均距离。这种方法可以避免上述两种方案的缺陷,产生较好的聚类效果。

img29

图5-6 平均连通计算示意图

5.2.2 对层次聚类算法的改造

(1)聚类的粒度

层次聚类算法可以详细地刻画类的构成,但是层次聚类算法有一个明显的不足就是每次聚类的结果都是一个二元关系(Binary relation),过于详细,这样就导致生成的类簇过细,不宜人阅读和理解[21]。此外,层次聚类算法的聚类结果和聚类的粒度过于详细,不符合本体生成的等级要求。像Yahoo!等网络分类体系以及大部分专业分类法大都分成几个主要类目,每个类目下都有合适数量的子类,比较适合人的阅读和理解习惯。为了聚类结果更适合于本体等级结构的要求,需要把层次聚类结果进行合并处理,把聚得的类的粒度变大,每个类下有一定数量的子类。

我们都知道,聚类结果好的标准是高内聚,低耦合。因此,我们在对层次聚类结果进行处理的时候,计算每个类的内聚度和耦合度,如果某个类的内聚度过低,耦合度过高,就将这个类合并,以减少聚类的类目数,增加每个类下的类元素个数。

设有Ci和Cj两个类,其中Ci={Ci1,Ci2,…,Cin,…},Cj={Cj1,Cj2,…,Cjn,…},定义几个参数:

①类间耦合度(Isolation)

类Ci和Cj包含的所有元素之间的平均相似度。

img30

②类内内聚度(Cohesion)

某个确定类,如Ci或Cj中所包含元素之间的平均相似度。

img31

③耦合-内聚比(R—IC)

img32

其中,img33表示Ci的补集,从公式中不难看出,R值越小,说明该类的内聚度越高,耦合度越低,也就是该类的质量越高。

(2)类的数目

为了防止某个类的类元素过多或者过少,也需要对类元素的数目进行一定的约束。γ分布是可靠性分析中的一个重要分布,本研究采用γ分布函数来描述类元素数目的分布密度[21]

img34

其中,|C|表示某个类别中类元素的个数,α和β是两个参数,起到平滑的作用,满足(α-1)β=N,f(N)≥f(x)(0<x≤n),N表示每次进行类别判断时类元素的个数。

5.2.3 领域本体等级获取实验方法

1 实验语料

对古农学研究文本进行主题标引,每篇文本选择25个关键词,以文本为单位计算,计算两两词对之间的Dice相关度,形成词对相关度表作为聚类基础。

2 总体流程

采用传统的向量空间模型(VSM)[22],通过向量的距离来描述两个概念的相似度。假定有矩阵C=(C1,C2,…,Cn),其中C表示所有的待聚类概念集合,Ci为其中的第i个待聚类概念。每个待聚类概念采用与其相关的上下文词来表示。因为,如果某两个词总是有相同的上下文环境,则说明这两个词是相关类别的[24][26]。每个概念的特征采用向量(Wi1,Wi2,…,Win)来表示,其中,Wij为第i个概念与第n个概念的相似度。

img35

其中,Wij为i,j两个概念的相似度,freq(i)为i概念在集合中出现的频次,freq(j)为j概念在集合中出现的频次,freq(i,j)为i,j两个词同时出现的频次。矩阵Distance表示两两概念之间的距离(也就是相关度)。

img36

其中,Ci为第i个待聚类概念,Cj为第j个待聚类概念,M为特征向量的维数,Wk为向量的第K维。

整个算法描述如下:

Step One:采用Dice测度计算两两概念之间的相似度。

Step Two:构建概念矩阵。

Step Three:计算矩阵中两两向量之间的距离,也就是概念的相似度。

Step Four:找出最近向量距离,形成新的聚类。

Step Five:重新计算类中心,将新的聚类的两个向量合并。

Step Six:判断向量的维数,如果大于2,则转到Step Two重新进行下一轮的计算,否则转到Step Seven。

Step Seven:层次聚类结束。

Step Eight:计算某层耦合-内聚比,如果大于阈值,该层合并;如果小于阈值,转到下一层计算。

Step Nine:判断是否到达底层,如果否,则转到Step Eight;否则Step Ten。

Step Ten:计算结束。

3 相关度计算

在已有的众多相关度计算方法中,本研究中选取了Dice测度进行计算,主要原因是[23]

(1)测度因素设置合理。在Dice公式中,三个测度因素关系明确,与P(A,B)成正比关系,与P(A)、P(B)成反比关系。

(2)可以有效克服“零概率事件”。而在极大似然比方法中则存在“零概率事件”对测度结果有影响的问题,而在Dice公式中则不存在这种问题。

(3)可以克服低频现象。利用互信息、开方统计等方法会造成在低频(频次为1)情况下,仍然可以得出运算结果为最大值的情况,而Dice测度可以有效地克服这种现象。

(4)实例

具体的计算方法是,假设“齐民要术”在文献集中出现了630次,“石声汉”在文献集中出现了300次,两个词同时出现的频次为150次,则“齐民要术”与“石声汉”的相关度为2×150/(630+300)=0.32。为了说明算法,我们以下面几个词为例,表中的数据表示横纵列交叉的词汇之间的相关度(为节省篇幅,简化计算,只取5个词为例)。

表5-4 聚类词相关度表

img37

①构建矩阵

C=(W1,W2,W3,W4,W5)

img38

②计算距离

向量的距离计算我们采用余弦公式,以W1和W2向量距离计算为例:

img39

则,两个向量之间的距离为:

img40

按照上述方法,经过计算得到距离矩阵Distance为:

img41

③合并向量

通过比较容易得出,距离最近且词性相同的词为W4,因此第一次聚类的结果为(W1,W5),然后将W1和W5合并为一个向量,采用“平均连通”方法计算聚类中心,因此,新的W1—W5向量为(0.88,0.385,0.025,0.49,0.88)。

新的矩阵为:

img42

仍然按照上述方法重新进行计算。

④收敛条件

当所有的类别都合并为一个大类时,聚类结束。最后形成的类别体系为:

img43

⑤对聚类结果进行处理

由于采用层次聚类算法聚得的类的粒度过细,不符合我们构建本体等级体系的要求,因此我们对算法进行了改进(方法在上文中已经详细介绍)。仍以上例来说明,通过计算各类的耦合-内聚比R(C)值,将比值低的类目进行合并处理,得到最终的聚类结果。

img44

图5-7 聚类结果处理前数据

在本项研究中,选取农学主题的研究文本1 652篇,经过处理一共生成418个类目,经过聚类结果处理,最终形成有效类目77个,每个类别下平均有5.8个概念。

img45

图5-8 聚类结果处理后数据

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈