首页 理论教育 基于本体的网络信息组织及其特点

基于本体的网络信息组织及其特点

时间:2022-11-04 理论教育 版权反馈
【摘要】:可见,语义网的信息组织机制由信息描述和语义注释两部分共同构成,本体问题是其中的核心内容。基于本体的语义网信息组织不仅方便计算机的理解和处理,更好地满足全新的信息环境和检索要求的需要,而且还可以在此基础上提供进一步的智能服务。这种多维、网状的信息组织方式,不仅有利

5.4.4 基于本体的网络信息组织

5.4.4.1 语义网

本体是语义网中信息组织的核心概念,要认识本体在信息组织中的作用,我们先要了解语义网的相关内容。“万维网之父”TimBerners-Lee将万维网的演化分为两个阶段:在第一个阶段,万维网是一个有利于人们相互合作的强大工具;在第二个阶段,这种合作将延伸到机器,即连接到万维网上的机器也应该能够分析万维网上的所有数据——包括内容、链接以及人与机器之间的交互。语义网(Semantic Web)就是对万维网第二阶段的设想,它并非是另一个独立的万维网,而是万维网的一个延伸,是一个由大量机器可理解的数据所构成的一个分布式的万维网。在这个语义网络中,数据之间的关系通过一些术语来表达,这些术语之间又形成一种复杂的网络联系,计算机能够通过这些术语得到数据的含义,并且可以在这种联系上应用逻辑来进行推理,从而完成一些原来不能直接完成的工作。

语义网通过在现有万维网基础之上加入可被机器“理解和处理”的内容,从而使得现有的万维网具有一定的智能。在继1998年提出“语义网”概念之后,Tim Berners-Lee于2000年描述了语义网的体系结构。从信息组织的角度来看,该体系结构揭示了语义网信息组织的结构模型(见图5-9),为万维网信息组织向语义网信息组织的转化提出了具体的技术解决方案

该模型最底层构成是统一资源标识符(URI)和统一字符编码(Unicode)。这一层解决的是语义网中资源定位和跨地区字符编码的标准格式的问题。第二层是可扩展标记语言(XML)、域名系统(Namespace)以及可扩展标记语言结构表(XML Schema)。第三层是资源描述框架(RDF)和资源描述框架结构表(RDF Schema)。这两层相结合,人们就可以建立各自的语义网,但要让计算机相互理解对方的语义,还需要有一套共同的概念体系,这就是第四层本体语言词汇表(Ontology vocabulary)。“XML(s)+ RDF(s)+Ontology”就构成了计算机间相互理解的基础,也就是改造万维网、建立语义网信息组织机制的三大核心技术。在本体层之上要进一步做一些逻辑推理工作,这就是第五层逻辑(Logic)。接下来就是保证信息是可信赖的,这是其余两个层次,及论证(Proof)和诚信(Trust)。

从信息组织的视角来看,其关键层次是本体语言词汇表,如同过去检索语言在文献信息组织中的地位和作用。其区别在于本体是机器可理解的,它支持机器的逻辑运算与自动推理,从而有望实现“智能化”的语义检索。语义网的信息组织机制核心由两大模块组成:①以XML与RDF为手段的信息描述模块,管理信息,具备部分语义;②以本体为手段的语义注释模块,提供“意义”,实现机器间的语义互操作。可见,语义网的信息组织机制由信息描述和语义注释两部分共同构成,本体问题是其中的核心内容。

img173

图5-9 语义网信息组织结构模型

5.4.4.2 本体的概念与构成

关于本体的定义,1993年Gruber给出的定义是:本体是概念模型的明确的规范说明;1998年Studer进一步完善为“本体是共享概念模型的明确的形式化规范说明”。这里揭示了本体的四层含义,即:①概念模型(conceptualization),指通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态;②明确(explicit),指所使用的概念及适用这些概念的约束都有明确的定义;③形式化(formal),指本体是计算机可读的;④共享(share),指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集。具体地说,在网络信息组织领域,本体就是一整套对某一领域的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,同时规定类目的特性及其之间的关系。有人把“Ontology”译为“实用分类系统”或“本体分类语言”,也是对其功能的诠释。

就理论层面而言,可以认为本体由概念(Concept)、属性(Property)、公理(Axiom)、取值(Value)及名义(Nominal)这五要素构成。其中,概念分为“原始概念”(根据必要条件而非充要条件定义的概念)和“定义概念”(根据充分必要条件定义的概念);属性是对概念特征或性质的描述;公理是定义在“概念”和“属性”上的限定和规则;取值是具体的赋值;名义是无实例(Instances)的概念或者是用在概念定义中的实例。

5.4.4.3 基于本体的网络信息组织的特点

基于本体的网络信息组织的特点主要表现在:

①直接体现语义。以前的网络信息组织,无论是分类组织,还是主题组织,所表达的语义是隐含的,只能被它们的建立者或开发人员理解、掌握和使用,而不能表达直接为计算机所理解的形式化的语义。基于本体的语义网信息组织不仅方便计算机的理解和处理,更好地满足全新的信息环境和检索要求的需要,而且还可以在此基础上提供进一步的智能服务。此外,本体对表达信息内容的概念的描述都是在一定的语义环境或限制规则下完成的,它在表达概念及其含义时更加清晰和准确,在进行信息组织时更加规范。

②分布式共享。本体是关于领域知识的共同理解与描述,用于共享与重组。但这种对领域知识的共同理解与描述不一定要通过一个集中管理的本体来完成,它可以分散在网络上的多个本体来完成。每一个本体负责描述领域知识的某一方面或某一部分,通过多个本体的相互协作来共同完成对领域知识的描述。关于特定领域某一方面或某一部分的本体建立以后,在需要时还可以被其他领域共享和利用。这样,分散在网络上的各个本体形成了一个分布式的网络,在需要时它们可以相互利用或协同工作以完成某一特定任务。这种分布式的信息组织方式,不仅可以减少信息组织建立、维护与管理的成本,而且还可以大大促进网络知识的共享和交流。

③多维、网状的信息组织方式。传统的信息组织方法是线性的、一维的,本体则采用了容易为计算机所接受和处理的体现描述逻辑的知识表现和信息组织方式,概念及其之间的关系形成了一个多维的语义网络。这种多维、网状的信息组织方式,不仅有利于网络上各种不同类型、不同结构的信息资源的集中与整合,而且有利于它们之间关系的描述与揭示。

④对推理的支持。本体通常需要以某种逻辑的语言来表达,从而完成对类、属性和关系的详细、精确、一致、良好的表达。一些本体工具也可以据此进行自动推理并为一些智能应用提供高级服务,如概念搜索、软件代理、自然语言理解、智能数据库等。本体及其推理能力代表了现代信息组织特别是网络信息组织的发展趋势,它不仅有利于信息的形式化描述,而且依据本体这种信息组织方式而建立的检索系统更能满足用户进行语义检索和智能检索的需要。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈