首页 百科知识 本体的维护和管理

本体的维护和管理

时间:2022-10-01 百科知识 版权反馈
【摘要】:因此,本体维护成本是一个不可回避的问题。它们代表一种当个人管理自己的信息需求时有机出现的结构。标记上使用的推理过程是统计,并使用了诸如聚类的技术。在本体需求存在的地方,轻量级但强有力的本体已经出现并得到广泛地使用。本体是为了促进实际数据共享实践的合理化。

9.2.3 本体的维护和管理

语义Web文本本体构建是一项复杂的工程,构建好的本体还需要得到良好的维护和管理。

1.成本问题

在领域知识中,有些概念比其他的概念更持久,但必须意识到它们不可能永远不变,例如,用来对医学病毒进行分类的词汇在新的过程和知识出现时会发生变化。因此,需要将本体看成是动态的结构。一些本体可能持续的时间长一些,如描述周期表元素的词汇;一些本体可能容易变动,如新兴和边缘学科中出现的词汇。社会和实践总在以一种复杂的微小的方式不断地改变着规范、概念和术语。在本体开发中,不应当感到奇怪或抵触这种变化。在这种环境下构建的本体应当知道什么时候需要进行修改。因此,本体维护成本是一个不可回避的问题。

在一些领域,成本不管多大都将容易得到补偿。例如,本体在结构良好的领域如科学应用中,不仅功能强大而且是一种基本的工具。在某些商业应用中,通过使用结构良好和协调的词汇规范所获得的潜在利益和产出将远远超过开发本体的成本和本体维护的边际成本。

事实上,在Web不规则的状态下,当本体的用户群增加时,这些成本可得到降低。如果假设将本体构建成本分摊给用户,则所需要的本体工程师数量以用户数量的对数函数增加,构建时间以工程师数量的平方增加。对一个基本模型来说,这些假设是单纯但可行的。结果是,为大量用户构建本体时包含在每个用户里的努力以非常快的速度变得非常小。[20]

2.本体的特征分析

并非所有的本体具有同样的特征,通常,人们能够区分出深本体(deep ontologies)和浅本体(shallow ontologies)。深本体是那些在科学和工程中遇到的本体,这需要很大的努力才能开发出概念间的关系。对于蛋白质和医学这样的领域,本体对数据非常敏感,当利用本体对复杂的构成某些对象的属性集进行分类时,这会变得更加明显。浅本体包含相对较少的交换词汇,这些词汇可以组织大量的数据,例如,在银行和金融环境下使用的客户、账号、透支等。浅本体能够提供大量可重用的数据,并只需要简单的词汇和关系。[21]

深本体的复杂性使得一些人避开本体而使用另一种称为标记(tagging)的方法。它们代表一种当个人管理自己的信息需求时有机出现的结构。当大量的人对特定信息感兴趣并被鼓励着描述这个信息——或标记它(他们可以自己进行标记以便组织自己的内容检索,或无私地帮助他人)时,大众中就产生了大量的结构。不采用集中形式的分类,用户可以为文档或其他信息源分配关键词。

著名的使用和开发标记的应用有Flickr(这是一个图像发布和共享站点)[22]和del.icio.us(这是一个共享书签的站点)。[23]这些应用从下到上,起源于非中央机构,有时称为Web2.0或社会软件(social software)。

在Web规模上进行标记当然是一个有趣的发展。它提供了一种潜在的元数据源。民间产生了大量的关键词检索,它们是在信息检索努力中的一种新现象,但这些民间的东西不同于本体,它们服务于不同的目的。本体的目的在于仔细地描述数据世界的部分,允许不同格式中的数据间的映射和交互。本体根据URIs进行参照,标记使用单词。本体通过一种仔细的、清晰的、努力消除模糊不清的过程得到描述。标记的定义是一种松散的、不清晰的过程,其中存在一些模糊不清。本体上使用的推理过程是基于逻辑的,利用了诸如join的运算。标记上使用的推理过程是统计,并使用了诸如聚类的技术。[24]

这并不意味着标记将永远替代浅本体。在本体需求存在的地方,轻量级但强有力的本体已经出现并得到广泛地使用。例如,Friend-of-a-Friend,[25]以及合作应用如Flink。[26]这符合语义Web技术和开发Web自组织技术的双重和补充发展的需求。

一些人认为本体是从上而下的强制的构建,与人们的实践、某领域的潜在任务或环境运行不关联,或仅仅一段时间内相关联。这种想法与开发一个单一且一致的涉及所有事物的本体相关,例如Cyc。[27]这种大范围的、包括所有事物的本体或许存在有趣的应用,但是它的应用无法得到实施。事实上,可以开发出不同领域的独立的本体。

本体是为了促进实际数据共享实践的合理化。[28]本体是一种手段,以便在兴趣领域间共享含义,任何人能够使用这些本体来描述自己的数据,能够扩展或重用某个本体的元素。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈