领域本体构建中的相关技术

时间：2022-10-20 百科知识版权反馈

【摘要】：近10年来，语言学界、人工智能领域和情报检索界的学者们，在汉语自动分词与自动标引的研究与实践上进行了大量的研究，找到了许多解决汉语自动分词问题的方法，归纳起来主要有以下几种［22］［23］［24］：机械分词法。所谓自动标引［28］就是利用计算机从文本中自动提取相关标识引导的过程。

领域本体构建中的相关技术_领域本体的半自动构建及检索研究

4.4　领域本体构建中的相关技术

领域本体的半自动构建方案主要是借鉴了知识工程领域进行知识库构建和知识发现的成果，吸收和学习了计算机科学、情报学以及农史学等几个学科的方法论，该方案综合了机器统计学习、自然语言处理技术以及图书情报领域的相关技术，现将部分技术作简要介绍。

4.4.1　自动分词

众所周知，汉语不像是西方文字那样通过天然的空格作为切分标志，而是词与词之间没有明显的界限，因此，汉语的分词问题成为众多中文信息处理任务的一项基础性研究课题。例如，机器翻译、情报检索、信息抽取、文本分类、自动文摘、语音识别以及自然语言理解等。近10年来，语言学界、人工智能领域和情报检索界的学者们，在汉语自动分词与自动标引的研究与实践上进行了大量的研究，找到了许多解决汉语自动分词问题的方法，归纳起来主要有以下几种^{［22］［23］［24］}：

（1）机械分词法。机械分词法主要有最大匹配法（MM法）、逆向最大匹配法（RMM、OMM、IMM）、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。

（2）语义分词法。语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。

（3）人工智能法。又称理解分词法，主要有两种处理方式：一种是基于心理学的符号处理方法。模拟人脑的功能，像专家系统，即：希望模拟人脑的功能，构造推理网络，经过符号转换，从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题，应用到分词方法上，产生了专家系统分词法和神经网络分词法。

4.4.2　词性标注

词性标注^{［25］［26］}，或简称为标注，主要任务是为句子中的每个词都标上一个合适的词性，也就是我们要确定每个词是名词、动词、形容词或其他词性。词性标注的用途非常广泛，例如，可以应用于信息抽取、问题问答以及浅层次句法分析等方面。

自从上世纪60年代以来，机器自动词性标注技术在过去的40多年里发展迅速。迄今为止已经出现了众多的计算机自动词性标注技术，这些技术所依赖的理论方法大致可分为三类：第一类是基于规则的方法，这类基于规则方法的核心思想是计算机根据具体的上下文结构框架，套用语言学家总结的语言学规律来判定兼类词词性；第二类是基于统计的方法，这类基于统计的方法的基本思想是制定词性标志集，选取部分自然语料进行人工词性标注，再利用统计理论（如Bayes公式、马尔科夫模型等）进行运算得出统计规律，然后依据统计规律建立统计模型，机器根据统计模型进行词性标注；第三类是规则与统计相结合的方法，这种统计与规则并举的词性标注方法融合了两者的优点，在计算机上同时建立起规则库和统计模型。对于语言学规则难以处理的现象，则借助统计模型来解决；而比起纯粹的规则方法，这种方法利用统计模型弥补了规则方法规则有限性的缺陷，其处理自然语言的能力大大增强了，鲁棒性也提高了。

4.4.3　命名实体识别

命名实体（Named Entity，NE）^［27］是文本中的固有名称、缩写及其他唯一标识，包括人名、地名、组织名、时间表达式、数值表达式等。命名实体识别任务是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在当今世界，随着计算机的普及以及互联网的迅猛发展，大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战，人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息，于是信息抽取研究应运而生。而命名实体识别研究是信息抽取中的重要组成部分，同时它还能应用于自动问答、机器翻译以及信息检索等NLP领域，有助于它们的性能的提高。因此，研究命名实体识别具有重要的意义。

目前，命名实体识别的基本方法有基于规则的方法与基于统计的方法两种。基于规则的命名实体识别系统比较简单，但需要人工编制规则，且这些规则往往依赖于具体的语言、领域以及文本格式等，耗时费力，因此健壮性和移植性较差。相对来说，基于统计的机器学习方法，利用人工标注的语料进行训练，这类系统代价小，在移植到新的领域时可以不做或做较少改动。常见的统计方法有隐马尔可夫模型（Hidden Markov Models，HMM）、最大熵模型（Maximum Entropy Models）、条件随机场（Conditional Random Fields）等等。但统计的方法又常常会受到训练语料规模的约束。因此，通常的做法是将统计的方法与其他的方法或知识结合起来进行命名实体识别，它能很好地捕捉自然语言中的统计规律，而且简单、高效。规则的方法可以比较好的描述自然语言中的个性特征，两者的有效结合能使两种方法取长补短，使命名实体的抽取达到了较高的性能。

4.4.4　自动标引

所谓自动标引^［28］就是利用计算机从文本中自动提取相关标识引导的过程。自动标引分为自动抽词标引和自动赋词标引，其中抽词标引是计算机自动抽取文本中表达文献内容的相关语词作为该文本的标识，标引词来自文本；而自动赋词标引则是在自动抽词标引的基础上，依据自然语言词汇与叙词表中的受控关系，将标引词转化为叙词表中的受控词，以此来作为文本主题词的过程。

自动标引与人工标引的原理非常相似，所不同的是：自动标引是采用计算机来“阅读”被标引的文本，并在计算机“读取”关键性词汇时，利用词频等测度方法，对文本进行主题分析和选定标引词。

自20世纪50年代由卢恩（H.P.Luhn）首次提出自动标引之后，国内外学者对此进行了广泛深入的研究，提出了多种自动标引方法。按照自动标引的理论依据划分，主要有统计标引法（Statistical Indexing Approach）、语言标引法（Linguistic Indexing Approach）、概率标引法（Probabilistic Indexing Approach）、人工智能标引法（AI Indexing Approach）等。

4.4.5　自动聚类

聚类^{［29］［30］}是将一组对象划分成若干组或类别，简单地说就是相似元素同组、相异元素不同组的划分过程。聚类在各行业、各领域的应用广泛，其中在信息检索和知识工程领域应用最多的是文本聚类和词聚类。文本聚类是根据文本内容的相似性将相似度大的文本聚集在一起，文本聚类已经成为对文本信息进行有效地组织、摘要和导航的重要手段。词聚类是根据词的上下文环境，将词义相似的词聚集在一起，通过词聚类可以自动获取词的分类体系，被广泛地应用于词典编纂和信息检索等。

按照聚类的大致方法，可以将目前的聚类算法分为两类：层次聚类算法（hierarchical clustering）和非层次聚类（non－hierarchical clustering），其中非层次聚类算法中类别结构比较简单，并且类别之间的关系没有层次聚类结构清晰；而在层次聚类算法中，每个节点都是父类的一个类，因此聚类结果可以表现为树图的形式。

4.4.6　句法分析

句法分析^{［31］［32］}是根据给定的句法，自动地推导出句子的语法结构，即句子所包含的句法单位和这些句法单位之间的关系。句法分析的目的一般有两个，一个是确定句子所包含的谱系结构，另一个是确定句子的组成成分之间的关系。例如，句子中包含哪些词语，每个词语的句法范畴是什么，如名词、动词、形容词等等。句子中更大的成分是什么，句子中包含哪些短语或词组，如名词短语、动词短语、介词短语等等。句子中各成分或短语怎样组合或附着而构成整个句子的句法结构。

目前，句法分析的研究大体分为两种途径：基于规则的方法和基于统计的方法。基于规则的方法，是以知识为主体的理性主义（Rationalism）方法。该方法以语言学理论为基础，强调语言学家对语言现象的认识。主要有广义短语结构语法（GPSG）、中心语驱动的短语结构语法（HPSG）、词汇功能语法（LFG）、树邻接语法（TAG）等方法。这种方法过分依赖于开发规则的知识工程师的语言知识和经验，存在很多弊端。而基于统计的方法借助于大规模语料库和机器统计学习技术，避免了基于规则方法的不足，主要有概率上下文无关模型、增加结构信息模型、词汇语法的概率表示、基于历史的模型等，这是目前句法分析的主流发展方向。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈