首页 百科知识 叙词本体建模方法

叙词本体建模方法

时间:2022-02-26 百科知识 版权反馈
【摘要】:目前尚没有一套标准的叙词本体构建方法。这一步主要是制定叙词本体所应达到的目标、概念范围,选择本体开发工具和本体表示语言,确定叙词本体的评价标准和相关原则等。领域叙词本体表述的是领域知识及其知识间的关系,构建叙词本体是一项复杂的工作。因此,构建本体前要明确该叙词本体创建的目标,从而确定叙词本体的领域和范围。因此,需要科学合理地设置叙词本体的评价指标体系,以规范化叙词本体的建设。
叙词本体建模方法_多语种叙词本体

4.2 叙词本体建模方法

4.2.1 叙词本体的构建原则

在基于本体技术的叙词表构建过程中,所建立的叙词本体必须满足一定的质量要求,即描述能力是否足够,描述粒度是否合理,以及是否能完整描述领域内的知识等,这需要寻找一些准则来指导建立叙词本体的过程。学者王素芳在《Ontology与叙词表的融合初探》中曾指出构建本体需要遵守的原则,这对我们构建叙词本体要遵守的原则有一定的借鉴作用,我们需要遵守以下几个方面的原则:

①对概念进行更具体的描述。词表是从整体意义上来描述数字对象的,这类似于图书馆编目记录通过其总体特征来描述对象,但是从用户的实际使用来看,他们通常寻找的是数字对象整体中的一些细节,因而叙词本体需要丰富这些描述词汇并表达出这些信息。

②将现存叙词表转化为叙词本体,并不意味着仅仅在词表中增加更多的类和子类,还应详细地列出这些类之间关系。

③描述概念和概念之间关系的语言的能力。一种正式的描述性语言是基于描述逻辑的,这种描述逻辑使用不同种类的个体(如一个对象集合中的实例)来描述各种情形,并通过个体之间的作用相互关联在一起组成概念,其真正意义在于它的表达性具有推理能力。

④应考虑到叙词本体的再利用性和共享性。

4.2.2 叙词本体建模

在第2章中,我们介绍了国外常见的几种构建本体的方法,其中部分方法和软件工程中常见的开发过程相类似。这些构建本体的方法论是诞生在具体的本体建设项目之中,在相应的项目中得到实践,对叙词本体的建模都具有一定的借鉴意义。出于各学科领域知识的差异和对工程实践的不同考虑,构建领域叙词本体的过程也各不相同。即使是同一个目标叙词本体,对其理解不同,选用的开发方法也不尽相同。目前尚没有一套标准的叙词本体构建方法。在综合比较了诸多方法的优缺点,结合叙词本体构建的理论基础,我们在斯坦福大学制定的七步法的基础上,参考学者付佳佳的硕士论文中对于本体建模的步骤,提出了叙词本体建模的一般步骤,依次包括确定叙词本体的应用目的、叙词本体的整体设计、叙词表中叙词及词间关系的预处理和精练、叙词本体的详细设计、叙词本体的表示以及叙词本体的评价。每一步的结果作为下一步的输入,对每一步的工作进行评审,如果工作成果得到确认,则继续进行下一步的开发活动,如图4-1所示。实际的叙词本体开发过程是一个反复迭代的过程,需要根据实际需求反复的讨论、修改、调试,最终确定叙词本体的原型。该方法步骤具有较强的逻辑性,有着良好的扩展性,可应用于一些专业叙词本体的构建。

img42

图4-1叙词本体建模过程

(1)确定叙词本体的应用目的

叙词本体提供了某个或某些专业学科领域中概念的词表以及概念之间的关系,给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。叙词本体对普通用户来说,是一种简化的词典。而在图书馆员看来,叙词本体作为第二代的叙词表,是主题词表的一种,它结合了叙词表的前身标题词表和元词表的优点,用概念词汇来标引文献。叙词表特别适合于学科和专业性质较强的文献的标引和检索,因此许多典型的叙词表都是面向某个学科和专业,有着不同的应用目的。采用和软件开发过程类似的办法,在叙词本体构建的初期,首先要了解其应用的具体背景和需求。

构建一个完整或完善的叙词本体是一项非常艰巨的工程,不是一蹴而就的,而且其工作量也是非常繁重的,在构建过程中需要对其不断地完善和修订。因此,明确叙词本体的应用目的非常重要,通过限定其范围、增强其针对性,进而降低构建的难度、缩短构建的时间。

(2)叙词本体的整体设计

依据第一步所确定的应用目的,接下来进行叙词本体的整体设计。这一步主要是制定叙词本体所应达到的目标、概念范围,选择本体开发工具和本体表示语言,确定叙词本体的评价标准和相关原则等。

领域叙词本体表述的是领域知识及其知识间的关系,构建叙词本体是一项复杂的工作。现在各学科知识之间互相渗透,领域边界越来越模糊。要构建某一学科的叙词本体,会涉及很多其他学科相关知识,这样扩充起来太庞大了。因此,构建本体前要明确该叙词本体创建的目标,从而确定叙词本体的领域和范围。

本体构建的过程中有大量的人工参与,因此还需要考虑如何尽可能减少构建过程中的繁重工作,所以需要借助优秀的本体编辑工具。关于本体开发工具和本体描述语言的选择,请参见第2章的内容,在此就不再重复。

叙词本体概念的构建是否科学合理,本体开发工具是否先进,叙词本体是否真正符合领域知识状况,可否真正体现知识组织的功能,这些都是叙词本体建设过程中必须考虑和解决的问题。因此,需要科学合理地设置叙词本体的评价指标体系,以规范化叙词本体的建设。通过借鉴学者马文峰、杜小勇的论文《领域本体评价研究》中对于本体评价应满足的原则,笔者认为叙词本体的评价应满足整体性、科学性、可行性、开放性等基本原则。

●整体性原则。如前所述,叙词本体建设是一项系统工程,所以应强调对叙词本体的整体性评价。评价指标体系要尽可能地囊括影响叙词本体建设的各方面的基本要素,并能从不同角度反映评价对象的内涵及其主要特征。应将不同层次、各方面相互联系的要素整合起来,形成一个有机的评价系统。

●科学性原则。评价体系的制定必须与叙词本体建设的理念和目标保持一致。

●可行性原则。评价指标体系既要全面、科学,又要简明,并符合叙词本体建设实际状况。尽可能选择可量化指标,对难以量化的指标,可通过间接衡量、局部特征综合等方式进行定性描述。无论是定性指标还是定量指标,都要有明确的内涵和科学的解释,并具有可操作性。

●开放性原则。叙词本体评价指标在一定的时期内应保持相对稳定。但是随着叙词本体研究与建设的深入,评价指标、权重系数、评分标准也应根据情况的变化而有所调整。因此,在评价指标体系的构建过程中,应尽量保持体系的开放性,以便与叙词本体建设实践发展相适应。

(3)叙词表中叙词及词间关系的预处理和精炼

这一步是基于本体建立叙词表的最核心、最关键的步骤。通过对叙词表中叙词及词间关系进行预处理和精炼,可以明确其概念;将叙词转变成叙词本体中的概念,简化其关系;将叙词表中宽泛、不准确的词间关系精炼为明确的概念间关系,使叙词表真正转换成叙词本体。如何对词间关系进行处理,在下一节中将有详细的说明。

(4)叙词本体的详细设计

叙词本体的详细设计也可称为叙词本体的具体构建过程,即在上一步的基础上,利用本体建设工具构建叙词本体。具体的构建过程包括:定义类和类的等级体系、添加类的属性、为概念添加实例。

①定义类和类的等级体系(建立概念层次结构)。类用于描述抽象的实体对象,是一类具有共性特征的实体的集合。类具有封装性、继承性,包含有子类,其中子类可以继承其父类的特性。类以层次结构的形式组织,最高层的类代表着最抽象的实体概念,就是所谓的顶层概念,其子类代表着更具体或范围更小的实体概念。

以下是一些类的例子:

人,所有人的集合,学生,老师,农民,工人等都可以作为人的子类。

个体,代表所有个体的类。

类,代表所有类的类。

农产品,代表所有农业产品的类。小麦,玉米,水稻等都可以作为其子类。

电子品,代表所有电子产品的类。手机,MP3,MP4,电子词典等都可以作为其子类。

教科书,代表所有教科书的类。比如,语文课本,数学课本等可以是其子类。

情报,代表所有情报信息的类。

概念层次结构将领域概念进行分类组织。概念的分类层次结构体现了分类概念之间的一种继承关系(kind-of),但是在叙词本体中,概念和概念之间通过关系来交互,除了继承关系,在我们构建的叙词本体中还可以根据需要,定义其他的关系。注意一个概念的表示会有同义词,但一个概念只能创建一个类。一个新类通常会增加其父类不具备的新的属性,或覆盖父类属性的约束。

学者刘艳玲在《本体构建方法的研究与应用》中,提出建立一个分类概念的层次结构有3种可行的方法:

1)自顶向下(top-down)方法。顾名思义,自顶向下的方法就是从上往下构建,即首先找出最抽象最具有概括性和覆盖最广的概念作为顶层本体中的最高本体层,然后以此概念作为起点根据各维(如时间维或空间维)拓展出下层抽象概念或子概念,并依次类推向下分解,直到具体分解至领域,从本体的概念为止。分解完后可以根据具体的领域知识或相关信息确定所有的物理实体及其相互关系,形成静态结构。用这个方法可以利用顶层本体已有的知识和经验,可以提高复用率,同时顶层本体也为领域本体的构建提供了框架,方便我们对领域本进行构建。其实这种自顶向下的描述方法实质上是一种面向过程的方法。简单地说就是由某一领域最大的概念开始,而后再将这些概念细化,最终得到叙词本体的等级层次结构。

2)自底向上(bottom-up)方法。它是一种由本体的设计者将领域本体映射到顶层本体的一种方法。具体构建过程是:首先,根据具体的所要构建的领域,从本体中抽取物理实体概念并实例化,描述这些概念和实例的关系从而形成体系结构;然后,确定最底层组织概念的能力以及可执行的任务,并根据最底层的任务按照时间维或空间维向上聚合,直到抽象到最高层且最具有概括性和覆盖最广的概念这止。其实自底向上的方法是一种类似于面向对象的描述方法。简单地说就是由底层最小类的定义开始,它们是这个等级体系的细枝末节,然后将这些细化的类组织在更加综合的概念之下,构成一个等级层次结构。这种方法也利用了顶层本体的知识,但这种映射将会有许多困难,因为领域本体和顶层本体概念之间存在不一致性。

3)核心扩展(middle-out)方法。综合上述两种方法。其表现形式为由一组核心概念入手,分别对它们进行恰当的归纳和演绎,不断扩展本体概念模型。

不论哪种方法,都有其优点,也有其缺点。具体采用哪种方法取决于开发者对该领域的理解程度。如果开发者对该领域有一套自上而下的系统认识,那么自顶向下的方法比较适合。如果开发者收集到更多的是实例,那么可选用自底向上的方法。对大多数开发者而言,综合法可能最为便捷。但是无论选择哪种方法,都要从类的定义开始,可以从上面已经创建的术语清单中,选择一些无二义性的术语作为类。

②定义类的属性。叙词本体中的类层次结构虽然提供了领域知识的整体框架结构,但还不足以提供所需要的全部知识信息。因此,一旦在定义了类之后,就必须进一步描述这些概念类的内部结构,即定义类的属性(porperty),在本体中属性通常可以分为以下几种:

a.数据类型属性(Datatype Property):称为其“内在属性”,描述类实例与RDF文字或XMLschema数据类型间的关系,这一类属性通常连接一个概念(individual)和一个数据值(data value),并且这种属性具有通用性和传递性。例如叙词本体中的概念与分类号、概念和范围注释(scope note)之间的关系就可以定义为Datatype Property。

b.对象属性(Object Property):称为其“外在属性”,也可称为“关系”,表示类或概念之间的关系。由于每个概念的属性都非常多,我们可以根据需求来定义领域内概念的属性,并不需要将概念的属性全部包括进来。例如叙词本体中概念与术语之间的关系(具有正式主题词、非正式主题词)就可以定义为Object Property。

一个属性可能由多个“分面”组成,包括:属性取值的类型(Va1ueType)、容许的取值(AIlowedValues)、取值个数(Cardinality集基数)和有关属性取值的其他特征。

③创建实例(个体)。实例是一个本体中最基本的、“基态”的组成部分。一个本体中的实例不仅包括数字和词汇这样的抽象个体,也包括人类、动物、桌子、汽车、分子、行星这样的有形物体。严格地讲,一个本体并不需要包含任何个体。但是,即便这些个体并不是本体的必需部分,一个本体的一般目的是提供对这些个体进行分类的方法。定义完后即可进行实例化。实例化的过程要先确定一个类,然后创建这个类的实例,同时要为实例的属性赋值。实例化是整个叙词本体开发过程中工作量较大、较为繁琐的一部分。

(5)叙词本体的表示

即选择表示叙词本体的本体描述语言。选择合适的本体描述语言对上述建立的叙词本体进行编码,使其形式化。本体的编码有基于描述的,也有基于逻辑推理的。常用的本体语言有Ontolingua、Loom、Flogic(Frame Logic)、XOL、RDF(S)、OWL、OIL等。一般本体构建工具可以导出描述语言文档,也可根据实际情况对这个文件进行编辑、修改。

这里建议采用标准的本体描述语言,可以更好地实现本体的共享和重用。编码过程结束之后,应该把编码过程和编码结果以文档的形式保存下来,为本体共享提供规范的文档。

(6)叙词本体的评价

叙词本体的编制,难免会存在结构和逻辑上的错误。目前大家公认在构建叙词本体的过程中,需要领域专家的参与和协作,以保证叙词本体的质量。

经过前面的五个步骤,已建立了一个初步的叙词本体。类似于软件开发中的测试阶段,本体也需要检验和评价。请对该领域较为熟悉的专家对这个叙词本体原型进行评价,学者付佳佳曾指出评价的内容主要包括概念体系结构的合理性、概念、属性以及关系的明确性和准确性,根据他们的意见返回第三步进行修改,经过反复修改,最终确定领域本体的原型。

目前还没有本体评价的标准方法,更无标准测试集。常用的指标包括清晰性、一致性、完善性、可扩展性等。清晰性就是叙词本体中的术语应被无歧义的定义;一致性是指术语之间关系逻辑上应一致;完整性是指概念及其关系应是完整的,包括该领域内所有的概念,虽然很难达到,但应该不断完善;可扩展性是指本体应用能够扩展,在该领域发展过程中能加入新的概念。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈