首页 百科知识 概念关系抽取的方法

概念关系抽取的方法

时间:2022-02-26 百科知识 版权反馈
【摘要】:概念间关系是进行知识推理的基石,也是使得叙词本体优于术语表、传统叙词表的地方。本体学习的重点和难点是发现概念之间的关系。此外,还有很多用于概念关系发现的聚类算法,如层次方法、基于模型的方法中的概念聚类方法等。
概念关系抽取的方法_多语种叙词本体

8.2 概念关系抽取的方法

本体包括概念、属性和实例,而属性的主要作用就是表示概念间关系,完备的概念间关系体系和对概念间关系的清晰的表达方式将使本体包含的知识更为丰富,更好地表达这个领域的内容。概念间的语义关系是本体的一个重要元素。缺少关系描述的领域概念集合只是一个领域辞典,充其量也只能算做一个轻量级本体。

概念间关系是进行知识推理的基石,也是使得叙词本体优于术语表、传统叙词表的地方。本体学习的重点和难点是发现概念之间的关系。本体概念间关系的获取,常用的方法有:基于模板的方法,基于概念聚类的方法,基于关联规则的方法,基于词典的方法或者这些方法的混合。下面将对这些方法进行逐一的介绍和分析。

8.2.1 基于模板的方法

定义1(模板)所谓模板,就是当用自然语言表述某个特定领域信息时,表现形式中相对固定的那部分内容,或者称为描述特定领域信息的自然语言框架固定或静态的模板和动态或变化的知识数据是对应的,二者的统一构成完整的领域信息的自然语言描述。

在本体学习中常采用模板匹配的方法抽取概念间的语义关系,特别是分类关系,基于模板匹配的方法对一定规模的领域相关文本(训练语料)进行统计分析或机器学习。根据一些频繁出现的语法规则来构建概念关系模板库,然后再根据模板库中定义的语法规则,从语料文本中提取满足条件的词序列,从中识别概念之间的关系。

例如,Hearst最先采用模板匹配方法从原始语料中抽取概念间的上下位关系。首先总结了六种满足概念间“属种”(is-a)关系的词法模板,从英文文本中识别和获取概念间关系;然后提出了一个自举(bootstrapping)算法模型,通过迭代的实例学习,半自动地获得概念关系模板。

Berland和Charniak借鉴Hearst的方法,提出了一个针对简单术语的“整体-部分”(part-of)关系抽取系统,根据用户给定的种子名词(seeds),使用五种满足“整体-部分”关系的句式,在LDC北美新闻语料库中寻找候选“部件”名词,然后再使用语法过滤器滤除其中可能表示实体属性的词,并通过统计的方法来衡量候选词作为种子名词的“部件”名词的可能性。

Girju等学者使用WordNet和C4.5决策树算法来获取概念间的“部分-整体”(part-whole)关系通用模板,并通过这些模板抽取出所有满足“部分和整体”关系的概念对。由于该方法是有监督的学习,需要根据WordNet对训练语料(53 944个满足句式要求的名词短语)进行手工的语义标注,因此前期的训练准备工作非常繁重。

Pantel等人提出了一种基于最小编辑距离的概念关系模板学习算法,从Terascale规模的语料中,自动地学习所有满足“属种”(is-a)关系的词形-词性(lexico-POS)关系模板,用于概念关系的抽取;对该算法和基于聚类的方法进行了对比实验,结果显示,基于模板匹配的方法时间复杂度较低,能够对各种规模的语料库进行处理;而且对数据稀疏问题的适应性较好,只要多个概念之间满足关系模板库中定义的语法规则,模板匹配方法就能将其准确地识别出来。

基于模板的解决方案思想简单直观,很容易理解,算法实现相对其他方法也简单。这类方法的主要缺点是准确度低,因为大量无用的概念对也往往匹配这些模板,而且模板的获取是否完备对于获取效果影响较大。另外,易受到语法规则的自动学习、泛化和维护等因素制约,移植性较差;而语法规则的获取是否完备、多个语法规则之间的冲突,对于概念关系获取的效果影响也较大。由于模板的模式不具有通用性,因此算法的实现要局限于特定的领域,模板的定制也需要水平较高的领域专家参与。

8.2.2 基于概念聚类的方法

定义2(聚类)聚类,即给定一数据样本集X{X1,X2,□,Xn},根据各个样本之间的相似度将数据集合分成k个族:{C1,C2,□,Ck},使得相似样本在同一族中,相异样本在不同族中,其中Ci={Xi},Ci∪Cj=Φ,i≠j。

关于同一族中的样本比来自不同族的样本更相似的判断问题主要涉及以下两个方面:①怎样度量样本之间的相似性;②怎样衡量对样本集某种划分的好坏。相似度通常用描述对象的属性值来计算。

基于概念聚类方法的指导思想是Harris的“分布假设”(Distributional Hypothesis),这种方法又叫做基于同现的方法,使用词的语法同现统计方法来估计词的语义相似性,然后以其为依据使用各种聚类算法对词进行概念聚类,使得同一类族中的概念具有语义近似的关系。

例如,Hindle提出了一种基于谓词一论元结构的名词分类方法,根据大规模英语文本语料库中的“主语-谓词-宾语”分布情况来计算名词之间的相似性。在Hindle研究工作的基础上Lin定义了一个依存三元组(w,r,w’)来描述词语w和w’的各种语法依存关系r,提出了一种新的词语相似度计算方法,从大规模语料库中发现相似词语并自动构建辞典。

Hindle和Lin等人研究的基于聚类的方法输出结果是给定词和其相似词语列表,但无法区分多义词的各个词义之间的差别。为此,Pantel提出了一种CBC(Clustering by Committee)聚类算法,此算法流程主要包括三个步骤:首先,在特征空间内为每个词w找到k个最近邻词,组成词w的相似空间;然后,利用递归的方法寻找w相似空间内的紧凑类,即委员会(committee);最后,将委员会成员的中心看作族的特征向量,将w分配给它最近的族。针对多义词存在多个语义的情况,CBC最后一个步骤是一个软分类过程,即w可以属于多个语义族,每个族都代表w的一个词义。为了便于发现词义,CBC将w分配给当前最近的族c后,就会把w和c的交叉特征从w的特征向量中移去,以保证在发现w的生僻语义的同时,避免重复语义的发现。

此外,还有很多用于概念关系发现的聚类算法,如层次方法、基于模型的方法中的概念聚类方法等。例如,Fisher提出的COBWEB就是一种简单增量概念聚类算法,它以分类树的形式创建层次聚类,使得树中的每个节点对应一个概念;并在节点内存储该概念的一个概率描述,用来概括被分在该节点下的对象的特征。由于COBWEB方法的时间和空间复杂度不仅仅取决于属性的数量,还依赖于每个属性的值的数量,因此,COBWEB不适用于处理大规模语料库的概念聚类。

大多数基于聚类的概念关系获取方法所得到的概念关系大多数是“匿名”关系,只能判断出两个概念之间是否存在关系。为此,Caraballo利用名词的连接词、同位语等特征来标识名词间的“一般和特殊”(is-a)关系,建立与WordNet类似的名词层级体系。Pantel的研究工作考察了名词的所有语法依存关系对名词间上下位关系的标识贡献,采用自顶而下的策略来建立名词的层级体系。基于聚类的方法是在“分布假设”基础上进行的,要求语法结构中的词分布必须具有较强的语法约束,而且其性能在很大程度上依赖于文本语料库的规模以及句法关系标注技术。

对于各等级聚类算法的性能,有学者指出,虽然每种聚类算法各有其优缺点,但不存在最优的聚类算法,现有算法只能证明它对某个应用是最优的。所以,在实际操作中才能确定哪种算法才是最合适的。

8.2.3 基于关联规则的方法

关联规则挖掘问题可形式化描述为:设I={i1,i2,i3,□,im}是m个项目的集合。T={t1,t2,t3,□,tn}是n个事务的集合,每个事务T是包含于I的项目的集合,可以用唯一的标识符TID来标识。如果对于I中的一个子集X≤T,我们就说一个事务T支持X。如果X中含有的项目数为k,则称之为k-项集。关联规则就是一个形如X≥Y的蕴涵式。其中X>I,Y>I,而且X∩Y=Φ,其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务中也出现。事务集D中的规则X≥Y是由支持度sup(support)和置信度conf(confidence)来约束的。

基于关联规则的方法常用于概念间非层级关系的获取,即提取出相关的概念对,其基本思想是:如果两个概念经常出现在同一篇章片段(如全文、章、节、段落或句子)中,那么,这两个概念之间必定存在某种语义关系,并可以通过关联规则的相关算法来获得。但抽取出的相关概念对之间的具体关系还需进一步确定。Maedche等首先描述了在浅层文本分析的基础上使用关联规则挖掘概念间关系的具体过程,随后将其置入本体学习系统Text-To-Onto中,在给定类层次结构作为背景知识的基础上探讨句法结构上相关概念的非分类语义关系。

8.2.4 基于词典的方法

基于词典的方法往往根据一些现有的词汇词典中定义的同义词、近义词和反义词等知识来获取本体中概念间的关系。现有的大多数机器可读词典(如WordNet、FrameNet等)都是由经验丰富的语言学家或领域专家通过手工方式编撰得到,因此可以作为一种可靠的领域知识源,用于领域概念及其关系的抽取。而利用MRD(Machine Readable Dictionary)中定义的同义词、近义词和反义词等知识来提取概念间的层级关系,就是基于MRD的方法。例如,Rigau等人提出一种首先识别定义中的类属特征,然后再对这些词条进行语义消歧的非监督学习方法。这种方法可以从任意一部MRD(如WordNet)中自动获取词条之间的层级关系,获得单语种或多语种词汇知识。

Nakaya等人在DODDLEII中利用WordNet来获取概念间的层级关系。首先使用字符匹配方法从WordNet中找到特定领域术语(概念)的对应节点,获得从这些节点到根节点之间的所有节点,组成一个初始化概念层次结构集合,然后再使用删剪模块去除其中的无用节点,最后获得特定领域概念间的层级关系。

基于词典的方法具有简单易实现的优点,但是很多MRD资源却不易获得,因此制约了这种方法的应用。

8.2.5 混合方法

混合方法往往是同时使用上述若干方法,以期获得更好的结果。其中比较特殊的方法是Missikoff等人和Navigli等人提出的,他们提出利用机器学习技术基于已有的通用本体对抽取出来的术语进行语义解释,即为这些术语关联上明确的概念标识符;然后,基于这些语义解释来确定概念之间的分类和相似关系,生成一个领域概念森林。与其他方法相比,该方法的主要特点是对术语进行语义解释,然后使用这些语义解释来获取除分类关系以外的其他概念间的关系,而其他方法都是将术语等同于领域概念。这种做法的好处是可以确定复杂术语的正确含义及其概念间的关系。对于一个复杂术语,该方法首先确定与该术语的各个组成成分相对应的概念,然后根据这些概念间的语义关系来构造相应的复杂概念。该步骤的结构是得到一个领域概念森林,它表示了这些复杂概念间的分类关系和其他关系。2005年,Kavalec等人提出使用扩展的关联规则挖掘方法为文本中概念间的非分类关系赋予语义标签。其基本思想是:如果两个概念间存在非分类关系,那么该关系能够用经常出现在这两个词附近的某个动词来表示。所以,可以通过计算某个动词和某两个概念一起出现的条件概率决定这两个概念之间的关系是否可以用该动词来表示。Kavalec等人的方法是对解决该问题的一个初步尝试,但它仅考虑了词频,没有考虑句子结构等其他因素,所以结果并不十分理想

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈