领域本体半自动构建的技术路线

时间：2022-02-27 百科知识版权反馈

【摘要】：在过去的研究中，知识工程师定义研究知识获取的方法为领域本体的自动构建提供了思路和一定的方法，但是必须承认利用机器学习会产生噪音数据，抽取的概念关系较为松散且可信度无法得到很好的保障，而利用自然语言处理技术，概念间潜在关系的分析则需要依赖复杂的语言处理模型，因此从构建本体的效率和效果两个方面考虑，本文提出一种基于领域专业人员参与的农学本体半自动构建方案。

领域本体半自动构建的技术路线_领域本体的半自动构建及检索研究

4.2　领域本体半自动构建的技术路线

在目前本体构建的三种方法中^{［10］［11］}，手工构建本体费时费力，且主观性较强。复用已有的本体虽然使得本体的构建有一个良好的基础，但并不是每个领域都有良好的可复用的本体，而且改造已有的本体尚需要不少的精力，本体间的映射也是目前难以解决的问题之一^{［12］［13］}。在过去的研究中，知识工程师定义研究知识获取的方法为领域本体的自动构建提供了思路和一定的方法，但是必须承认利用机器学习会产生噪音数据，抽取的概念关系较为松散且可信度无法得到很好的保障，而利用自然语言处理技术，概念间潜在关系的分析则需要依赖复杂的语言处理模型，因此从构建本体的效率和效果两个方面考虑，本文提出一种基于领域专业人员参与的农学本体半自动构建方案。

首先，由专业人员根据自身对领域知识的理解，给出农学领域通用的概念框架，称为“骨架”本体，这是按照阮冈纳赞的分面思想^［21］对农学领域的概念进行的分析和综合，其核心技术是将事物按照分面分析的理论分成不同的几个主题面，这几个主题面是正交的，即一个组面的术语发生变化不会影响到另一个组面的术语空间。然后在每个组面下进一步划分类目。分类时需要按照每个组面对事物进行分类描述。对于古农学领域，我们给出了时间、地点、人物、农书以及主题五个组面，具体的概念分析将在下一节介绍。

其次，收集领域概念，包括候选概念的收集和领域概念的筛选。候选概念的收集主要来源是从农史的专业词典中抽取有关农学的概念，从农史的专业研究论文中抽取有关农学的关键词。根据一定的筛选算法从候选概念集中过滤出最能代表领域概念的术语，并同时给出这些概念的组面。

然后，对领域概念进行组织，这是领域本体构建的关键步骤，包括等级关系的组织以及领域关系的组织。对于等级关系的组织，主要根据按照高内聚，低耦合的原则，采用改进的层次聚类算法对农学概念进行聚类，同时借鉴已有的主题词表和分类法中的分类体系，给出领域的等级体系。领域关系的获取是本体构建中的难点，在本文中主要采用基于自然语言处理技术相结合的方法，从农史的研究论文中抽取领域关系，例如，农书与作者的关系、土地类型与耕作技术类型的关系、农作物与原产地的关系、害虫与农作物的危害关系等等，这是对农学领域概念关系（除等级关系之外的其他关系）的精细总结，是进行语义推理和语义检索的重要基础。

最后，对领域本体雏形的修改和评价以及形式化处理（用OWL语言进行描述）。对于领域本体雏形的修改和评价采用部分机器过滤的方法，主要是根据概念以及关系出现的频次和相关度两个参数，但是机器学习所获取的语义关系是存在噪音的，因此在对领域本体雏形的修改和评价中，主要是由专业人员进行评价，以便保证半自动构建出的农学本体具有良好的正确性和逻辑性。本体的形式化是对构建出的农学本体采用OWL语言进行描述。在已有的本体编辑工具中，例如Protégé需要手工输入定义好等级关系和领域关系的概念，该工具才能自动生成采用本体语言描述的领域本体。在本文中的本体形式化是对已经获取了等级关系和领域关系的概念直接自动采用OWL语言批处理输出，可以加快本体生成的效率。领域本体半自动构建的整个流程见图4-1。

本文提出的基于专业人员参与的领域本体半自动构建方案具有以下特点：

图4-1　领域本体半自动构建流程图

（1）交互性

领域专业人员给出的“骨架”本体是一种自上而下的特化，刻画的是领域的权威核心结构；利用专业文本抽取出的概念以及概念关系是一种自下而上的范化，有着良好的文献保障基础，但缺少领域知识可能会导致结构混乱。将两种方式提炼的框架进行交互，一方面可以节省领域专业人员的时间，另一方面可以使得构建的本体有质量保障，构建出的本体有良好的逻辑结构和全面的主题覆盖。

（2）高效性

领域本体的手工构建需要耗费大量的人力，目前在自动构建本体技术尚不成熟的条件下，完全依赖自动化技术构建的本体会产生不少的噪音。可以说，在目前的技术水平下，采用领域专业人员与机器自动学习的交互模式是一种高效的本体构建方法。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈