首页 百科知识 概念关系的抽取过程

概念关系的抽取过程

时间:2022-02-26 百科知识 版权反馈
【摘要】:属,分以及族术语属于等级关系,属与分是可逆的,族可以通过叙词本体的公理推理得到,参为相关关系。因此一个概念的语义含义可以通过不同的语词形式表达。在8.2节中有介绍到本体概念关系抽取的几种基本方法。
概念关系的抽取过程_多语种叙词本体

8.3 概念关系的抽取过程

叙词本体有两类关系HC与RI,HC在构建叙词本体时已经被定义,演化过程中更改的几率非常小,因此在此我们不作考虑。而根据前面的定义,RI={Y,D,S,F,C,Z},因此在叙词本体演化过程中,我们需要获取的关系可以限定为以上这六种关系。其中用(Y)和代(D)属于等同关系,并且二者是可逆的。属(S),分(F)以及族(Z)术语属于等级关系,属与分是可逆的,族可以通过叙词本体的公理推理得到,参(C)为相关关系。

8.3.1 概念关系的分类

8.3.1.1 等同关系

等同关系是指叙词和非叙词之间语义相同或相近,是可以互相替代的语词之间的关系,亦称同一关系、代用关系。因此一个概念的语义含义可以通过不同的语词形式表达。如果一个术语I1被作为另一个术语I2的另一种表达形式(非规范表达),那么就可以定义Y(I1,I2)以及D(I2,I1),理解为I1用I2规范表示,用I1代I2非规范表示。

在8.2节中有介绍到本体概念关系抽取的几种基本方法。叙词表对同义词控制的目的在于把表达同一主题概念的文献集中在同一标识下。从等同关系查找和发现的角度来看,基于模板匹配的方法利用了汉语行文特点识别同义词,不需要深入探究句子的语义,也能提取正文中的同义词,是一种简单易行的方法。

●基于模板匹配的等同关系获取

基于模板的方法,主要是根据等同关系的概念,对易于在同一篇文献、同一个段落或者同一个句子中出现的词设计模板进行抽签。这种方法利用语义相似或相同概念对共现的特点来获取等同关系,是等同关系抽取的一个有效方式。这种方法通过运用语言学知识,在执行抽取任务之前,构造出若干基于语义的模板集合并储存起来。当进行关系抽取时,将经过预处理的语言片段和模板库中的模式进行匹配,一旦匹配成功,则可以认为语句中的相应概念与模板的关系属性相类似。

(1)模式定义

对汉语词汇释义时通常使用同义词、准同义词以及上下位词进行描述。因此可以从定义中分析和提取同义词定义模式。如“亦称”,“也称……”,“简称……”,“……的简称”,“俗称……”等,可以从中提取常用模式定义。

例如:给定规则1: NP0亦称{NP1,NP2…(and| or)} NP n,则对于所有的NP i,1≤i≤n,存在D(NP0,NP i)以及Y(NP i,NP0)。

对于文献中的句子“等同关系指可以互相替代的语词之间的关系,亦称同一关系、代用关系”,根据规则(1)可以得到以下关系: D(“等同关系”,“同一关系”),D(“等同关系”,“代用关系”)以及Y(“同一关系”,“等同关系”),Y(“代用关系”,“等同关系”)。读者可能会注意到,为什么我们提取出的关系是D(“等同关系”,“同一关系”)而非D(“同一关系”,“等同关系”)呢?这是因为在学术论文中,放在句首加以强调的术语一般为规范化的词语。因此,我们这里将“等同关系”作为叙词,而“同一关系”与“代用关系”作为非叙词。由于叙词本体在关系获取时,必须区分和判定叙词和非叙词来确定相应的关系,因此我们在抽取算法和规则中则需要作相应的处理。

Marti A.Hearst总结了等同关系的英语语句模板。我们发现汉语也有相似之处,因此在此基础上进行了部分修改,下面将给出我们通过人工方式总结出的模式列表。

规则2: NP0{又|俗|也|或}称{NP1,NP2,□(and| or)} NP n

则D(NP0,NP i),Y(NP i,NP0)(i∈{1,2,□,n});

规则3: NP0{又|亦|也|或}叫{NP1,NP2,□(and| or)} NP n

则D(NP0,NP i),Y(NP i,NP0)(i∈{1,2,□,n});

规则4: NP0是{NP1,NP2…(and| or)} NP n的另一种{规范|严格}{表达方式|称谓|称呼}

则D(NP0,NP i),Y(NP i,NP0)(i∈{1,2,□,n});

规则5:{NP1,NP2…(and| or)} NP n是NP0的{另一种|其他}{表达方式|称谓|称呼}

则D(NP i,NP0),Y(NP0,NP i)(i∈{1,2,□,n});

规则6: NP0,即{|是}{NP1,NP2,□(and| or)} NP n,

则D(NP0,NP i),Y(NP i,NP0)(i∈{1,2,□,n})。

(2)模式获取

①人工获取方法:人工获取方式依靠的是专家的知识和技能。专家既要熟悉特定领域相关的知识,也要知晓计算机系统内部对模式规则书写格式的要求,还能对规则的计算复杂性有初步的估计。专家需要审阅一定量的待处理文本文档(这里指的一定量的文本文档通常是训练集),然后用他的知识和经验归纳出相关同义词出现的模式,按照一定的格式要求书写规则。

人类专家掌握相关领域知识的水平和技能是一个很关键的因素,直接影响到系统的性能和结果。除了需要借助于人类专家,这种方式的另一个问题是系统开发量较大。利用人工获取的方法构建一个高性能的系统往往要有多次迭代的过程。在生成初始的模式规则集合之后,需要在测试集中检验其有效性,根据测试结果做出相应的修改,然后再测试,直到取得最佳的效果,因此,这样的方式需要大量的开发劳动。

②机器获取方法:机器学习的方式也需要一定的人工参与。但是与人工获取方式不同的是,机器学习方法中不需要具备对系统的知识,也不需要知道编写规则应该用什么格式。这个专家只需要充分地了解指定领域中的知识,并能够在训练集合文档中用适当的方式标注出相关信息的出现(这里主要是指同义词的出现)。机器在经过标注的训练数据上进行主动学习,自动获取模式规则信息。从研究的角度看,如果开发条件允许的话,机器学习的方法更具有吸引力,因为与人工获取方式对比,其本身有下列优势:

a.开发的成本较低。采用机器学习方法,专家不需要具备对系统本身的知识,只要对目标领域有充分的知识以便于在训练集文档中标注出相关信息就可以了,而人工获取的方式中,专家还必须对系统本身有足够的了解才能写出系统需要的规则模式。用机器学习的方法,还能大大缩短获取模式规则的时间。因此在开发时间和所需的专家的知识、劳动这两个方面,机器学习的方法能降低开发的成本。

b.系统的适应性强。系统的结构框架相对所要处理的领域来说是独立的部分,领域不同只是意味着系统处理所需要的知识和数据不同。自动学习模块一经构建,理论上就可以在不同的领域多次使用,达到学习不同领域相关的知识和数据。手工获取方式则须重复相同的工作,其弱点是显而易见的。

尽管机器学习有这些知识理论上的优势,但是到目前为止,机器学习的能力终究比不过人,机器学习出来的规则相比于人类专家归纳出的规则在其可靠性、有效性等方面还是有所不如。

利用基于模板的方法来抽取概念关系的显著特点是有相对较高的准确率,它所获取的关系质量较高。但是这些方法由于汉语的复杂性,所以很难将所有的规则都枚举出来,并且预先定义的模板样例有限,它的查全率很低。

8.3.1.2 等级关系

等级关系,指上位概念叙词和下位概念叙词之间的一种关系,亦称属分关系。

如果一个术语(I1)可以作为另一个术语(I2)的一种类型,一个部分或者一个个体,那么就可以定义S(I1,I2)以及F(I2,I1),理解为I1属I2,I2分I1

叙词本体概念间的等级关系自顶向下也体现了其分类体系的构建。叙词表通过揭示词汇之间的等级关系达到有效组织叙词,调节标引和专指度,实现族性检索和特性检索的目的。采用单一的概念关系抽取方法很难识别出所有层次关系,所以可以几种抽取方法结合起来获取等级关系。

(1)基于模板匹配的等级关系获取

在8.3.1.1小节中,我们有介绍利用基于模板匹配的方法抽取概念间的等同关系,该方法在等级关系获取中同样有效。通过定义一组表示等级关系的句法模式,然后用这些模式抽取语料库中的等级关系。

例如:给定规则(8) NP0,比如{NP1,NP2,□,(and| or)} NP n,则对于所有的NP i,1≤i≤n,存在S(NP i,NP0)以及F(NP0,NP i)。

对于语句“而今的交通工具,比如汽车、火车、飞机,给人们的出行带来了极大的便利。”可以认为S(“汽车”,“交通工具”)以及F(“交通工具”,“汽车”)。可以理解为“汽车”属于“交通工具”的一种,“交通工具”可以分成“汽车”,“火车”和“飞机”等多种。

Marti A.Hearst总结了类属关系的英语语句模板。我们发现汉语也有相似之处,因此在此基础上进行了一点的修改,得出以下几条规则。

规则7:像{NP1,NP2…(and| or)} NP n这样的NP0

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n});

规则8:{NP1,NP2,…(and| or)} NP n,{或者|以及|或|和|及}其他的NP0

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n});

规则9: NP0,{包括|包含}{NP1,NP2,□(and|or)} NP n

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n});

规则10: NP0,尤其是{NP1,NP2,□(and| or)} NP n

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n})。

除此之外,在一些定义或者解释型的语句中,也会得出术语之间的等级关系。例如“叙词表是一种将标引人员或用户使用的自然语言转换为规范化的系统语言的术语控制工具”,S(“叙词表”,“术语控制工具”),F(“术语控制工具”,“叙词表”)。通过对汉语的观察,我们还总结出以下几条规则。

规则11:{NP1,NP2,…(and| or)} NP n是{一种?}* NP0

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n});

规则12:{NP1}{是指|指的是|指}* NP0

则S(NP1,NP0),F(NP0,NP1);

规则13: NP0{分为|划分为|分割成|分成|划分成}{NP1,NP2,□,(and| or)} NP0

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n});

规则14:{NP1,NP2,□(and| or)} NP n{属于|隶属于} NP0

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,…n});

规则15: NP0有{NP1,NP2,□(and| or)} NP n几种类型

则S(NP i,NP0),F(NP0,NP i),(i∈{1,2,□,n})。

由于汉语的复杂性,所以很难将所有的规则都枚举出来。通过已有规则自学习新规则,可以弥补手工定制规则的缺陷。关于模板获取方法在8.3.1.1节有详细介绍,可参看该小节内容。

(2)基于中文复合词结构的等级关系获取

利用模板的方法来获取等级关系,相比较等同关系来说,其查全率更低一些,因为受到模板库中模式集的大小,等级关系句法表示的多变化等多种因素的影响。为了更有效地获取叙词本体中的等级关系,我们也提出了一种基于中文复合词结构的分类关系获取方法。

中文领域叙词本体中的概念通常是由多个相互独立的词和短语构成的,大部分的领域概念不存在于目前已有的通用词典如How-Net中,因此无法直接应用HowNet中的语义关系。中文的复合词结构虽然比较复杂,但是从词的内部形式和语义内容来讲,又有着一定的规律性,即复合词具有组成其各个部分的基本词的元特征。例如,“管理信息系统”是一种信息系统,因此是“信息系统”的下位概念,“信息系统”又是一种系统,因此是“系统”的下位概念。从语言学角度来讲,这种概念间的关系提取的共性是上位概念是其下位概念的子串,并且子串的位置通常是在下位概念的首部或尾部。因此,在叙词本体概念等级关系的获取中,充分利用汉语的这个特点,应用下面的规则对获取的领域概念进行层次分类。

规则16:对于一个概念C,如果有另一个概念C'能够分解为S+C或C+ S的形式,其中S表示任意长度的字符串,那么概念C’可以作为概念C的下位概念。

通过规则16,可以从文本中学习到更多的概念层次关系,同时也可以利用得到的概念对学习更多的句法关系模式,从而学习到更多的上下位语义关系。

(3)基于相似度矩阵的词聚类方法

为了达到尽量全面识别等级关系词汇的目的,还可辅以基于相似度矩阵的词聚类方法。利用基于相似度矩阵的词聚类算法,来聚类同一主题相关的词汇,形成概念的等级体系。

具有等级关系的词汇在语义上是相似的,在实施词聚类算法之前,首先要计算词汇之间的语义相似度。未知词汇的含义常常能从它的上下文推导得出,语义相似的概念和术语经常出现在相同的上下文中。基于此假设条件,利用相似度矩阵词聚类算法来抽取等级关系。具体流程如图8-1所示。

img105

图8-1 词聚类算法流程图

步骤1:初始化相似度矩阵(即距离矩阵,在聚类过程中通常把“相似度”称为“距离”,相似度越大,距离越小)。首先采用Dice测度方法计算词汇之间的关联度,生成关联概念空间。从关联概念空间中提取与词汇T关联度最高的前K个词汇作为词T的特征向量。把词表中的每个词作为一个单独的族,通过余弦相似度系数计算族与族之间的距离,生成相似度矩阵。

步骤2:找出距离最短的两个族。

步骤3:判断最小距离是否小于阈值,是则结束程序,否则转到步骤4。

步骤4:合并距离最小的两个族,生成一个新词族。

步骤5:计算新族与其他族之间的距离,更新相似度矩阵,转到步骤2。

聚类过程中,计算所生成的新族与其他族之间距离时可借鉴等级聚类算法中关于单连通、全连通和平均连通的定义。另外,阈值D的取值决定了两个族是否足够相似并进一步聚为新族,并最终决定聚类过程何时停止能得到较好的聚类效果,需要经过反复试验才能确定。

8.3.1.3 相关关系

相关关系是不同于等同关系和等级关系的一种比较密切的类缘关系。叙词表对相关关系进行揭示,有利于用户检索时查找相关信息,扩大检索范围,增加检索途径。叙词表的相关关系涉及范围广、种类多、灵活性大,很难严格界定。叙词之间的近义关系、反对或矛盾关系、交叉关系、因果关系等情况都可认作是相关关系。因此利用上述的模板方法很难将所有的相关关系都提取出来。而分析汉语的语句特征,可以发现具有相关关系的叙词通常会同时出现在一个句子中,或者相邻的几个句子中。因此采用关联规则挖掘算法来处理叙词本体的相关关系抽取,是一个合理的方案。

关联规则挖掘算法的基本思想是如果两个概念经常出现在同一文档(或段落,或句子)中,则这两个概念之间必定存在关系。

关联规则常用于数据仓库的数据挖掘,本文中,关联规则算法可以描述为:给定一组文档集合T:={T i| i= 1,□,n},其中每个文档包含一系列的术语T i:={a i,j| j= 1,□,m,ai,j∈C},每个术语a i,j都是概念集C中的术语。算法计算关联规则X k=>Y k(X k,Y k∈C,X k∩Y k={})的支持度和信任度是否超过用户定义的阈值。

关联规则支持度是指文档中包含X k∪Y k作为子集的百分比,更通俗讲,就是X k与Y k在文档所有术语中共现的概率。

关联规则信任度是指在文档中,当X k出现时,Y k也出现的百分比。

如果计算出的关联规则(X k=>Y k)支持度和信任度超过了用户定义的阈值,那么就说明X k与Y k在用户认知的范围内是相关的。但是这里的相关关系也会包括前面一节讲到的等同关系与等级关系,因此在抽取相关关系时,一定要排除掉等同关系和等级关系的可能性。如果抽取出的关系既不是等同关系,也不是等级关系,那么就可以把它归为相关关系。

例如,“检全率”与“查准率”通常会在一篇文档中同时出现,通过计算两者的支持度和信任度,认为两者是相关的。但是两者既不是等同关系,也不是等级关系,那么这两者一定是叙词表中的相关关系,用C来关联。

综合利用以上两种或两种以上的方法,可以从指定的网络资源中抽取出叙词本体术语之间的六种关系,从而完成叙词本体演化过程关系抽取工作。

8.3.2 抽取关系

实验系统中,我们主要采取分布的概率统计方法和基于模板方法获取概念之间上述语义关系。其基本思想是:统计方法利用词语上下文信息,根据一些经典的统计分布假设,计算词语间相关性。这种方法从某种程度上来表达了词语之间一种宽泛的关系。它不能精确地定义词语之间具体的语义关系,只是提供两者具有某种关系的佐证。基于模式的方法,根据人工总结的关系抽取模板,抽取出所有可能的关系对,通过发现词语同时出现的固定模式,用这种模式来直接表示某种固定的语义关系。实际实验中,模式匹配的方法找到的上下位关系和整体部分关系等的精确度更高。但是模式在文本中出现的频率较低,因此需要更多包含目标词语对的句子,以找到包含此种模式的实例。而统计的方法能够对语料中包含目标词语对的句子极尽其用,因此同样适合于非大规模语料。

由于提取关系时需要涉及两个或者两个以上的词语之间的关系。不管是模板方法还是关联规则方法,都需要一对词语同时出现。因此两种方法都需要首先统计词语共现的概率。只有当一对词语同时出现在摘要里面的概率达到了一定程度,才能够确定其具有相关关系。在确定了相关关系的基础之上,再根据模板方法进行模板匹配,从而确定其为等同关系(用、代)还是等级关系(属、分、族)。

8.3.2.1 相关关系的抽取

提取出的关系不仅是指新术语之间的关系,还包括新术语与已有术语之间的关系。因此在完成术语提取的过程中,不仅要记录下新术语,同时也需要记录下已有的术语。相关关系抽取的流程如图8-2所示。

在图8-2中,数据表1是指提取出的新词数据库表,数据库表的存储在上一阶段新术语的提取中已经完成。数据表包含的信息包括新词所在的所有文献编号,总共已经出现的频次。从这张数据表中可以查询到新词所在的所有文献编号。

数据表2是指标题、关键词以及摘要中出现的词汇以及这些词语所在的文献编号,出现的频次,包括新词汇和旧词汇。根据上一步骤查得的所有文献编号,可以查到这些文献中同时存在其他的词汇,并统计共同出现在同一篇文献的次数,记录这些共现词汇对,共现所在的文献编号以及共现频次。比较这些频次,如果其频次达到了指定的标准,那么我们认为这些词汇对之间存在着相关关系。

但是这种关系中也可能包含等级关系与等同关系,因此必须将等级关系和等同关系排除掉才可以将这些词汇对作为候选相关关系提供给专家进行评审。我们所采取的方法是先将所有的词汇对都以“参”的关系存储到数据库中,在完成等级关系与等同关系的判定后,将属于等级关系和等同关系的词汇对关系修改成“属或分或族”以及“用或代”。

img106

图8-2 相关关系提取流程图

8.3.2.2 等级关系与等同关系的抽取

在完成“参”的关系的基础上,只需要对这些关系进行等级关系及等同关系匹配即可。

根据前面的理论,我们对等级关系与等同关系采取模板方法,即利用模式匹配的方法来解决。可以采用正则表达式的方法来实现匹配。因此我们需要两个模式文档,其保存的内容为转化后的模板正则表达式。如,等同关系的一种就可以表示为.* NP*.*[亦称|又称|或称|俗称|也称|又叫|也叫|亦叫|或叫]NP*,其中*表示任意字符,NP*表示需要抽取其关系的术语,.* NP*.*表示术语前面和后面都可以出现任意字符即任意文字对其进行修饰补充或者解释说明。[亦称|又称|或称|俗称|也称|又叫|也叫|亦叫|或叫]表示为亦称与又称,或称,俗称,也称,又叫,也叫,亦叫,或叫为或的关系,只要出现了[]中的任意一个词语,那么给定的两个术语满足这个正则表达式,就可以说明这两个术语是等同关系。图8-3为判定术语等级关系与等同关系的流程图。

img107

图8-3 等级关系与等同关系提取流程图

从图8-3中可以看到,需要等级关系模式与等同关系模式两种文档,而文档中的模板则是一条一条语句的正则表达式,因此需要找到术语对共现的文献,如果术语对恰好同时出现在同一条语句中,那么就可以将这条语句分别与这个文档中的所有模板进行匹配,如果满足两个文档中的任意一个模板,那么就说明该术语对很有可能是所属模板的关系。对于这些可能术语等级关系及等同关系的可能性进行统计,当这些频次超过了指定的阈值,那么就可以确定该术语对是等级关系或者等同关系,并将数据库中的关系改成“属或分或族”或者“代或用”。如果频次未超过指定的阈值,那么不能将术语对确定为等级关系或者等同关系,只能确定为相关关系。如果对于术语对所在的所有语句都无法满足文档的模板,那么也只能认定该术语对就是相关关系,而非等级关系和等同关系。如果对于所有的术语对同现文献,术语对并没有同时出现在同一条语句中,同样只能认定该术语对就是相关关系,而非等级关系和等同关系。

从目前相关研究看,叙词本体关系的抽取仍然停留在实验阶段,实际应用存在着许多困难。如本体学习效率不高,获取的概念关系对比较少;自动化程度比较低;某些抽取方法需要借助词典获取概念关系,而许多领域并不存在专业词典等。另外,抽取关系中存在的复杂关系和规则仍然是难以解决的问题,尤其是在中文文本方面。因此,叙词本体关系的抽取质量的提高,也有待于语义抽取技术的进一步发展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈