概念关系的抽取过程

时间：2023-02-26 百科知识版权反馈

【摘要】：属，分以及族术语属于等级关系，属与分是可逆的，族可以通过叙词本体的公理推理得到，参为相关关系。因此一个概念的语义含义可以通过不同的语词形式表达。在8.2节中有介绍到本体概念关系抽取的几种基本方法。

概念关系的抽取过程_多语种叙词本体

8.3　概念关系的抽取过程

叙词本体有两类关系HC与RI，HC在构建叙词本体时已经被定义，演化过程中更改的几率非常小，因此在此我们不作考虑。而根据前面的定义，RI={Y，D，S，F，C，Z}，因此在叙词本体演化过程中，我们需要获取的关系可以限定为以上这六种关系。其中用(Y)和代(D)属于等同关系，并且二者是可逆的。属(S)，分(F)以及族(Z)术语属于等级关系，属与分是可逆的，族可以通过叙词本体的公理推理得到，参(C)为相关关系。

8.3.1　概念关系的分类

8.3.1.1　等同关系

等同关系是指叙词和非叙词之间语义相同或相近，是可以互相替代的语词之间的关系，亦称同一关系、代用关系。因此一个概念的语义含义可以通过不同的语词形式表达。如果一个术语I₁被作为另一个术语I₂的另一种表达形式(非规范表达)，那么就可以定义Y(I₁，I₂)以及D(I₂，I₁)，理解为I₁用I₂规范表示，用I₁代I₂非规范表示。

在8.2节中有介绍到本体概念关系抽取的几种基本方法。叙词表对同义词控制的目的在于把表达同一主题概念的文献集中在同一标识下。从等同关系查找和发现的角度来看，基于模板匹配的方法利用了汉语行文特点识别同义词，不需要深入探究句子的语义，也能提取正文中的同义词，是一种简单易行的方法。

●基于模板匹配的等同关系获取

基于模板的方法，主要是根据等同关系的概念，对易于在同一篇文献、同一个段落或者同一个句子中出现的词设计模板进行抽签。这种方法利用语义相似或相同概念对共现的特点来获取等同关系，是等同关系抽取的一个有效方式。这种方法通过运用语言学知识，在执行抽取任务之前，构造出若干基于语义的模板集合并储存起来。当进行关系抽取时，将经过预处理的语言片段和模板库中的模式进行匹配，一旦匹配成功，则可以认为语句中的相应概念与模板的关系属性相类似。

(1)模式定义

对汉语词汇释义时通常使用同义词、准同义词以及上下位词进行描述。因此可以从定义中分析和提取同义词定义模式。如“亦称”，“也称……”，“简称……”，“……的简称”，“俗称……”等，可以从中提取常用模式定义。

例如:给定规则1: NP₀亦称{NP₁，NP₂…(and| or)} NP _n，则对于所有的NP _i，1≤i≤n，存在D(NP₀，NP _i)以及Y(NP _i，NP₀)。

对于文献中的句子“等同关系指可以互相替代的语词之间的关系，亦称同一关系、代用关系”，根据规则(1)可以得到以下关系: D(“等同关系”，“同一关系”)，D(“等同关系”，“代用关系”)以及Y(“同一关系”，“等同关系”)，Y(“代用关系”，“等同关系”)。读者可能会注意到，为什么我们提取出的关系是D(“等同关系”，“同一关系”)而非D(“同一关系”，“等同关系”)呢?这是因为在学术论文中，放在句首加以强调的术语一般为规范化的词语。因此，我们这里将“等同关系”作为叙词，而“同一关系”与“代用关系”作为非叙词。由于叙词本体在关系获取时，必须区分和判定叙词和非叙词来确定相应的关系，因此我们在抽取算法和规则中则需要作相应的处理。

Marti A.Hearst总结了等同关系的英语语句模板。我们发现汉语也有相似之处，因此在此基础上进行了部分修改，下面将给出我们通过人工方式总结出的模式列表。

规则2: NP₀{又|俗|也|或}称{NP₁，NP₂，□(and| or)} NP _n

则D(NP₀，NP _i)，Y(NP _i，NP₀)(i∈{1，2，□，n});

规则3: NP₀{又|亦|也|或}叫{NP₁，NP₂，□(and| or)} NP n

则D(NP₀，NP _i)，Y(NP _i，NP₀)(i∈{1，2，□，n});

规则4: NP₀是{NP₁，NP₂…(and| or)} NP n的另一种{规范|严格}{表达方式|称谓|称呼}

则D(NP₀，NP _i)，Y(NP _i，NP₀)(i∈{1，2，□，n});

规则5:{NP₁，NP₂…(and| or)} NP n是NP₀的{另一种|其他}{表达方式|称谓|称呼}

则D(NP _i，NP₀)，Y(NP₀，NP _i)(i∈{1，2，□，n});

规则6: NP₀，即{|是}{NP₁，NP₂，□(and| or)} NP n，

则D(NP₀，NP _i)，Y(NP _i，NP₀)(i∈{1，2，□，n})。

(2)模式获取

①人工获取方法:人工获取方式依靠的是专家的知识和技能。专家既要熟悉特定领域相关的知识，也要知晓计算机系统内部对模式规则书写格式的要求，还能对规则的计算复杂性有初步的估计。专家需要审阅一定量的待处理文本文档(这里指的一定量的文本文档通常是训练集)，然后用他的知识和经验归纳出相关同义词出现的模式，按照一定的格式要求书写规则。

人类专家掌握相关领域知识的水平和技能是一个很关键的因素，直接影响到系统的性能和结果。除了需要借助于人类专家，这种方式的另一个问题是系统开发量较大。利用人工获取的方法构建一个高性能的系统往往要有多次迭代的过程。在生成初始的模式规则集合之后，需要在测试集中检验其有效性，根据测试结果做出相应的修改，然后再测试，直到取得最佳的效果，因此，这样的方式需要大量的开发劳动。

②机器获取方法:机器学习的方式也需要一定的人工参与。但是与人工获取方式不同的是，机器学习方法中不需要具备对系统的知识，也不需要知道编写规则应该用什么格式。这个专家只需要充分地了解指定领域中的知识，并能够在训练集合文档中用适当的方式标注出相关信息的出现(这里主要是指同义词的出现)。机器在经过标注的训练数据上进行主动学习，自动获取模式规则信息。从研究的角度看，如果开发条件允许的话，机器学习的方法更具有吸引力，因为与人工获取方式对比，其本身有下列优势:

a.开发的成本较低。采用机器学习方法，专家不需要具备对系统本身的知识，只要对目标领域有充分的知识以便于在训练集文档中标注出相关信息就可以了，而人工获取的方式中，专家还必须对系统本身有足够的了解才能写出系统需要的规则模式。用机器学习的方法，还能大大缩短获取模式规则的时间。因此在开发时间和所需的专家的知识、劳动这两个方面，机器学习的方法能降低开发的成本。

b.系统的适应性强。系统的结构框架相对所要处理的领域来说是独立的部分，领域不同只是意味着系统处理所需要的知识和数据不同。自动学习模块一经构建，理论上就可以在不同的领域多次使用，达到学习不同领域相关的知识和数据。手工获取方式则须重复相同的工作，其弱点是显而易见的。

尽管机器学习有这些知识理论上的优势，但是到目前为止，机器学习的能力终究比不过人，机器学习出来的规则相比于人类专家归纳出的规则在其可靠性、有效性等方面还是有所不如。

利用基于模板的方法来抽取概念关系的显著特点是有相对较高的准确率，它所获取的关系质量较高。但是这些方法由于汉语的复杂性，所以很难将所有的规则都枚举出来，并且预先定义的模板样例有限，它的查全率很低。

8.3.1.2　等级关系

等级关系，指上位概念叙词和下位概念叙词之间的一种关系，亦称属分关系。

如果一个术语(I₁)可以作为另一个术语(I₂)的一种类型，一个部分或者一个个体，那么就可以定义S(I₁，I₂)以及F(I₂，I₁)，理解为I₁属I₂，I₂分I₁。

叙词本体概念间的等级关系自顶向下也体现了其分类体系的构建。叙词表通过揭示词汇之间的等级关系达到有效组织叙词，调节标引和专指度，实现族性检索和特性检索的目的。采用单一的概念关系抽取方法很难识别出所有层次关系，所以可以几种抽取方法结合起来获取等级关系。

(1)基于模板匹配的等级关系获取

在8.3.1.1小节中，我们有介绍利用基于模板匹配的方法抽取概念间的等同关系，该方法在等级关系获取中同样有效。通过定义一组表示等级关系的句法模式，然后用这些模式抽取语料库中的等级关系。

例如:给定规则(8) NP₀，比如{NP₁，NP₂，□，(and| or)} NP _n，则对于所有的NP _i，1≤i≤n，存在S(NP _i，NP₀)以及F(NP₀，NP _i)。

对于语句“而今的交通工具，比如汽车、火车、飞机，给人们的出行带来了极大的便利。”可以认为S(“汽车”，“交通工具”)以及F(“交通工具”，“汽车”)。可以理解为“汽车”属于“交通工具”的一种，“交通工具”可以分成“汽车”，“火车”和“飞机”等多种。

Marti A.Hearst总结了类属关系的英语语句模板。我们发现汉语也有相似之处，因此在此基础上进行了一点的修改，得出以下几条规则。

规则7:像{NP₁，NP₂…(and| or)} NP _n这样的NP₀