首页 理论教育 叙词本体的定义

叙词本体的定义

时间:2022-02-26 理论教育 版权反馈
【摘要】:③在关系定义方面,本体模型中关系的定义不像叙词表中有具体的规定,本体的关系具有灵活性及可扩展性。④在词汇的组织方面,本体的语词除了有规范化的语言之外,还包括自然语言和半自然语言,这表明本体与叙词表相比,在规范化方面表现较差。下面各章节将详细介绍叙词本体的定义,功用,结构以及扩展叙词本体的概念,提出多语种叙词本体。
叙词本体的定义_多语种叙词本体

3.1 叙词本体的定义

3.1.1 叙词表与本体的比较

叙词表主要用于检索时的后控制和标引时索引词的选择,是提高查全率和查准率,实现多语种检索和智能化概念检索的重要途径。而本体提供了一个用来表达和交流某些主题知识的词表,它包含一个关系集,关系集描述了词表中这些术语间的联系。叙词表和本体都是可以描述主题知识的词表。两者到底有什么样的区别与联系呢?

中国农科院的李景和钱平专门论述了叙词表与本体的区别和联系,主要体现在以下六个方面。

①叙词表中的术语是规范的学科术语,而ontology中的概念和术语则是自然语言或者半自然语言。

②二者在组织结构上也存在着区别,叙词表中分布的知识点是线性一维的,而ontology中的知识概念分布则是网状的,在四维空间中伸缩。

③本体的知识库与概念集可以随着学科领域的发展会不断地进行修正和更新,这一点大大地强于叙词表。

④叙词表中只有“用、代、属、分、参、族”六种简单的语义关系,而ontology中的概念间关系则被表述得更加广泛、深入、细致和全面。

⑤叙词表是一个词汇库(即语料库),但不是知识库;而ontology不仅仅是概念集、语料库,而且还是知识库。

⑥叙词表相对稳定,结构保守而单一,不可能经常修订。而ontology的结构应该是基于xml的开放体系,可以被复用,可以增加或减少枝节,可以对每个枝节处进行修改和校验,可以对原有的模式进行保存,还可以“温故知新”。

学者赵焕洲和唐爱明也对叙词表与ontology进行了比较研究,除了上述的区别之外,他们认为二者的区别还体现在以下几个方面:

①在表示语言方面,叙词表没有表示语言,而ontology可以采用Ontolingua,Loom,Flogic,SHOE,RDF,OIL,DAML+ OIL等语言来对其进行表示。

②叙词表没有采用数学语言,ontology采用了数学语言中的一阶谓词逻辑。

③在构建流程方面,叙词表的编制一般按以下流程进行,即总体设计、选词、对词汇进行处理、编表、审核和试标引。而ontology构建时通常采用或参考enterprise方法、Grunninger&Fox的评价法、Berneras等人的方法、MethOntology方法以及基于SENSUS的方法等。

④在应用方面,叙词表一般用自然语言词语作为表示,直观表达信息主题概念,是以直接标引信息为目的。而ontology的作用则是澄清知识的结构,从而为知识表示打好基础,实现知识的共享。

除了上述区别之外,我们认为叙词表和本体之间还存在着以下几点区别:

①叙词表可以直观表达信息主题概念,可以直接用以标引信息,但是其结构不清晰,查询比较困难,而本体在此方面就做得比较好,能够更加清晰地表示知识的结构,查询更加容易。

②在组织结构方面,叙词表是线性一维的,而本体呈现网状结构,能够将知识之间的关系表达得更加清晰。

③在关系定义方面,本体模型中关系的定义不像叙词表中有具体的规定,本体的关系具有灵活性及可扩展性。这一点可以认为是本体的优势。但在构建本体时,如何定义关系却是一件困难的事,而叙词表给出了一个实用的具体方案。从应用效果上看,由于概念间的关系比概念本身更复杂,因而清晰的关系更能帮助人们对知识的理解,所以目前许多本体项目是基于叙词表构建的。知识组织中概念之间的关系是非常重要的内容,叙词表所规定的词间关系是一个优秀的方案。可以说,叙词表是一种表现形式,而实际上它是一种方法:叙词法。叙词法是知识组织与表示的一种综合方法。从这层意义上讲,叙词表(法)与本体的研究内容与重点不在一个层次。

④在词汇的组织方面,本体的语词除了有规范化的语言之外,还包括自然语言和半自然语言,这表明本体与叙词表相比,在规范化方面表现较差。而在信息标引时,用自然语言进行处理,显然缺乏学科的专业性。信息组织的大量工作必须依赖手工的录入和标引,机器标引和自动编目存在很大的局限性,其精确度尚无法和手工标引媲美。低效率的手工标引成为制约本体系统构建和完善更新的最大瓶颈。而且研究本体构建的技术体系与研究检索的技术体系之间存在脱节问题。这导致了本体工程的生命周期不能顺利进行。

⑤在应用效果方面,叙词表的应用效果是得到公认的,而本体的应用并不如预期的那么广泛。

⑥叙词表的更新维护功能相对较困难,而本体技术的自学习以及自演化的相关研究已经有所突破,况且加上其描述语言的开发性,增加、修改本体都相对比较容易。随着世界上交通技术以及通信技术的快速发展,世界各地学术交流也越来越容易,因此,整个学术以及发展“欣欣向荣”,新术语以及新关系的涌现层出不穷。传统的叙词表的结构和组织方式严重地阻碍了叙词表的更新和维护。在这方面,由于本体构建技术以及描述语言的特点,使其更新和维护都相对容易。

从上述的区别和联系中,我们可以看到叙词表以及本体都各自存在优缺点,那为什么不结合使用两者,使其充分发挥其优点,为知识组织以及表示更好的服务呢?答案当然是肯定的,基于这种想法,我们提出了叙词本体的思想,即利用本体技术来构建叙词表。下面各章节将详细介绍叙词本体的定义,功用,结构以及扩展叙词本体的概念,提出多语种叙词本体。

3.1.2 叙词本体的定义

定义1(叙词本体)令TO={C,I,HC,RI,O},其中TO(Thesauri Ontology)为叙词本体,它由一系列概念集C,从属于概念集下的实例(叙词与非叙词) I,概念的类分关系HC,叙词术语之间的关系RI,以及一些公理O组成。

这里的概念集是指表示学科范畴的概念,即学科分类,利用本体技术进行构建时,使用本体原语“类”进行构建。I是术语词集,对应于叙词表中的语词,包括规范化的叙词以及非规范化的非叙词,利用本体技术进行构建时,使用本体原语“实例”进行构建。公理O与本体概念中的含义相同,代表永真断言,如概念乙属于概念甲的范围。它主要用于叙词术语隐式关系推理之用。HC为概念类分关系,而叙词术语之间的关系RI将在下面的内容中详细介绍。

定义2(概念的类属关系) HC是指叙词本体中概念的类属关系,HC(C1,C2)表示C1是C2的子概念。

例如HC(“情报学”,“情报学、情报工作”),“情报学”是“情报学、情报工作”的子概念。在叙词本体构建中,主要是通过定义类之间的对象关系得以实现,一般情况下为“is part of”关系。

定义3(术语关系) RI={Y,D,S,F,C,Z}是指概念下叙词术语之间的关系,这种关系引用了叙词表里的六种关系,即用(Y),代(D),属(S),分(F),参(C),族(Z)的关系。

Y(I1,I2)表示I1是I2的非叙词表示,D(I2,I1)表示I2是I1的叙词表示,S(I1,I2)表示I1是I2的下位词,F(I2,I1)表示I2是I1的上位词,C(I1,I2)表示I1,I2是相关关系,Z(I1,I2)表示I2是I1的族首词。

同叙词表的关系一样,可以将这六种关系概括为三大类关系,即等同关系,等级关系以及相关关系。等同关系即指用(Y)、代(D)关系;等级关系指属(S),分(F)以及族(Z);相关关系即指参(C)。而相关关系所包括的具体关系有很多,如对立关系、交叉关系等。如果从网络资源中提取出的关系可以精确到这些更具体的关系,那么我们可以扩展叙词本体的关系。在相关关系即参(C)下增加一些子关系,如对立关系,交叉关系等。

在叙词本体的构建中,术语关系也是通过定义对象属性进行定义的。而相关关系的子关系则是通过定义参(C)的子属性得以实现的。

由此,叙词本体可以将叙词表中所有的内容都包含进来,并有机结合了学科分类成为分类法与主题法相结合的一种解决方案。同时对关系进行了扩展,使其能够更加准确地表现叙词术语之间的关系,使用叙词本体中的叙词进行标引,能够更准确地描述概念;同理,选择叙词本体中的叙词作检索词,也能够更容易且更加准确的检索出与此词相关的信息。例如,如果叙词术语A1与叙词术语A2存在对立关系,在叙词本体中对A1、A2进行了定义,那么在检索时,提供检索词A1以及选择了检索出其对立关系的选项,那么叙词本体将会把其存在对立关系的叙词术语A2也一同检索出来。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈