首页 百科知识 关系抽取研究

关系抽取研究

时间:2022-10-20 百科知识 版权反馈
【摘要】:关系抽取是信息抽取领域的一项基础性研究,是指从文本中自动识别两个命名实体之间的关联。到目前为止,知识工程和机器学习是针对文本的经典关系抽取方法。有指导的语义关系抽取目前取得了较好的性能。
关系抽取研究_多语种叙词本体

8.1 关系抽取研究

8.1.1 关系抽取的发展

关系抽取是信息抽取领域的一项基础性研究,是指从文本中自动识别两个命名实体之间的关联。在信息抽取系统中,我们称从文本中抽取出的基本信息元素为实体(Entity),命名实体则是指现实世界中具体或抽象的实体。在1995年第六届信息理解会议(the Sixth Message Understanding Conferences,MUC-6)上首次提出“关系抽取”这个概念,随后在命名实体关系抽取方面学术界展开了大量的研究工作。大多数情况下,人们将关系抽取问题转化为一个分类问题,即首先列出一个句子中所有的实体对,然后使用一个分类器决定哪些是我们真正需要的关系。到目前为止,知识工程和机器学习是针对文本的经典关系抽取方法。

知识工程的方法:知识工程是用来描述从人类专家吸取特定问题域知识的过程,它需要对熟悉所在领域的知识工程师参与。该方法在各个领域都有所应用,如C.Aone,M.Ramos-Santacruz使用Relation和Event两个本体库的方法; Hamish Cunningham等所设计的GATE等。

机器学习的方法:该方法主要依靠机器学习中的统计方法来完成任务,它不需要知识工程师的大量参与,但是需要大量的训练语料才能达到很好的性能。应用此方法的系统有David Fisher开发的CRYSTAL系统和Ellen Riloff开发的AutoSlug系统,典型算法有MarkCraven进行Web信息抽取的新算法,Brin采用少量种子关系逐步扩展的抽取方法以及Agichtein在Brin方法基础之上标注实体类型的算法,把关系抽取转化成分类问题、构造特征向量的基于SVM和Winnow的分类算法,基于计算两个字符串对象之间的Kernel相似度函数等。

这两种方法各有特点,知识工程方法的缺点是需要由专家构建规模比较大的知识库,从而增加了人力负担;机器学习的方法克服了知识工程方法的缺点,训练数据同时使用各种学习方法转化成分类问题,通常是构造特征向量,而后来的Kernel方法直接使用原始的字符串对象,但是Kernel训练的速度比较慢。

上述方法都已经成功地应用在信息处理的各个领域,如自动问答系统、文本深层挖掘、知识工程、数字图书馆、信息检索、生物信息学等领域,还应用在许多日常生活的领域,如电子商务、电子学习、商务智能、企业管理、信息监控、报刊编辑、民意调查等。但是,由于当前系统性能和可移植能力的限制,作为信息抽取的重要基础,关系抽取的发展还没达到能够广泛应用的目的。近几年来,随着机器学习、人工智能、模式识别和数据挖掘等领域中传统方法的不断发展以及语义Web等新兴领域各种新技术和新方法地不断涌现,关系抽取方法得到了长足的发展。

8.1.2 语义关系的抽取

近年来,随着语义Web(Semantic Web)的发展,研究与之相应的本体工程方法也成为学术界和工业界的新方向。通过对概念、术语及其相互关系的规范化描述,本体刻画出某一领域的基本知识体系和描述语言,在公众共享范围内对这些概念和关系给出唯一的、明确的、公认的定义。而本体学习技术(ontology learning)就是利用机器学习和统计等技术,自动或半自动地从已有的数据资源中获取期望的本体的技术。在本体学习工程中也有类似传统关系抽取的改进算法,但是本体学习中的关系抽取方法并不局限于利用传统的信息抽取领域的研究成果,由于本体学习中的关系抽取具有比较丰富的语义性,出现了许多创新性的工作,不仅仅如此,许多研究工作利用本体的语义结构进行关系抽取,并取得了令人满意的效果。

近十几年来,随着语义关系抽取技术的不断发展,研究人员提出了许多不同的方法实现实体间语义关系的抽取,根据对语料的不同需求大致可分成三大类:指导性学习方法、弱指导学习方法和无指导学习方法。根据训练文本是否经过人工标注,机器学习方法又可分为有指导的机器学习方法(Supervised Machine Learning,SML)和无指导的机器学习方法(Unsupervised Machine Learning)。其中有指导的机器学习方法的研究起步较早。经过十几年的研究和发展,目前国外已经利用这种方法开发出不少实用的信息抽取系统。这三种方法在黄晨的《语义关系抽取发展现状及抽取方法的研究》一文中叙述如下:

(1)有指导的机器学习方法(Supervised Machine Learning)

有指导的机器学习方法主要有:基于特征向量的机器学习方法和基于Kernel的机器学习方法。基于特征向量的方法将信息抽取问题转换为一个分类问题。首先将训练语料和测试语料都转换为特征向量,通过给定的训练数据构造一个分类函数,使得这个分类函数能够对新数据进行正确分类,以实现信息抽取。

常用的基于特征向量的机器学习方法有支持向量机(SVM)和Winnow等。这类方法中的特征选择是启发式的,需要大量的人力,并且当前使用的特征已经覆盖了大多数可以利用的语言特征,因此该类方法的性能提升较为困难。另外,基于平面特征的方法在挖掘丰富的语法结构或依赖信息方面能力有限,而这些结构信息对关系抽取任务的重要性是显而易见的。

Kernel的机器学习方法在充分挖掘语法或依赖信息上具有一定的潜力,通过构造核函数计算两个具有结构(比如语法树结构)的对象的相似性,基于核的方法以一种简捷的方式将语法或依赖等结构特征应用到了关系抽取上。有指导的语义关系抽取目前取得了较好的性能。但是它们需要大规模的人工标注关系实例作为训练数据,由于其较强依赖人工标注语料库,因此通用性不强。

(2)弱指导性学习方法(Weakly Supervised Learning)

虽然指导性语义关系抽取取得了较好的性能,但是由于其需要大规模的人工标注关系实例作为训练数据且极其依赖人工标注语料库,因此其通用性不强;另一方面,无指导语义关系抽取不需要事先定义关系类别和人工标注数据,但是性能较差,同时在学习过程中无法确定每个实例所属类别。为了解决以上不足,人们引入了弱指导的学习方法,与指导性学习方法相比,这种学习方法能够最大限度地减少对人工标注语料库的依赖,它只需要提供少量的标注实例作为初始训练集合,从少量种子集开始,不断从未标注语料库中抽取出可靠性较高的关系实例来增强训练集,最终期望通过有效利用大规模未标注的语料来获得较好的性能。使用弱指导学习来进行语义关系抽取任务主要有三种代表性的方法:自举方法(Bootstrapping)、标注传播算法(Label propagation)和协同训练方法(Co-training)。

弱指导学习方法在语义关系抽取方面具有很大的发展空间,它最大的好处是可以大大减少学习过程中所需要的标注语料库的规模,其主要问题是初始种子的选择比较困难,对最终的性能影响较大。

(3)无指导性学习方法(Unsupervised Machine Learning)

无指导方法在语言信息处理的其他领域都有成功的应用,该方法在信息处理的过程中不需要任何的人工指导或干预,因而可以全自动地对信息进行抽取。不过在信息抽取这一领域,利用无指导的方法进行语义关系的抽取还刚刚起步。2004年,Hasegawa等人在ACL会议上提出了一种无指导的命名实体关系抽取方法。Hasegawa等首先识别出文本中的命名实体及其类型,当实体对的共现频率超过一定阈值时,把它们作为一个潜在的语义关系,并通过计算实体对之间的词汇相似度的方法进行聚类,然后给每个发现的语义关系赋予一个合适的类别名称。在1995年纽约时报语料上的测试表明,用该方法发现公司实体对(COM-COM)之间的语义关系,F指数可达到75。无指导学习方法为关系抽取指出了一个新的研究方向,因为不需要人工标注的数据,可以节省大量的时间和人力。其缺点是相对于有指导和弱指导的学习方法效率较低。

8.1.3 中文语义关系抽取方法

黄晨在《语义关系抽取发展现状及抽取方法的研究》中对中文语义关系抽取方法的论述如下:

信息抽取现在发展的比较成熟,在国内外相关研究领域都是一个研究热点,在MUC(Message Understanding for Conference)和ACE(Automatic Content Extraction)两大权威会议的积极推动下,各个参评的单位为使自己的系统性能达到最优,动足了脑筋,于是许多新的设想、新的模型和新的系统层出不穷。目前MUC英文信息抽取的各项指标基本上都达到了相当高的水平:实体识别90%左右,属性识别80%左右,事实识别70%左右和事件识别60%左右。

相比较英文信息抽取,中文信息抽取的研究起步较晚、成果也十分有限。现在的研究工作还主要集中在中文命名实体的识别方面,其中“台湾大学”和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测。国内从事这方面研究的主要是北京大学计算语言所和中科院计算所。

虽然从理论上讲,在中文语义关系的抽取上可以参照采用英文语义关系抽取的方法和原理,但是由于中文和英文在语法结构上的诸多不同。另一方面,我国从事这方面研究的人员也不是很多,起步也非常晚,可以借鉴的内容也比较少,因此中文语义关系抽取方法基本上主要集中于指导性的统计机器学习方法,包括基于特征的方法和基于核函数的方法两大类。对于基于特征的中文语义关系抽取而言,其关键问题仍然是如何选择有效的词汇、句法和语义等特征。在基于核的中文语义关系抽取方法中,目前应用的核函数都是基于比较中文词串的相似度,并在比较过程中考虑了一定的词汇语义相似度。在这些关系抽取中,有指导的方法占主导地位,而无指导的中文语义关系抽取目前尚无比较系统、完善的方法。我国的中文语义关系抽取水平还比较低,也是将来研究的一大热点,对我国信息处理技术的发展将起到巨大的作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈