首页 百科知识 语义网发展面临的挑战

语义网发展面临的挑战

时间:2022-02-27 百科知识 版权反馈
【摘要】:由于语义网的基础架构正在建设中,目前语义网的内容很少[10]。第一是能应用于所有领域核心本体的构建。任何语义网方法应方便地访问不同语言的信息,采用国际化和本体化技术实现基于用户母语的个性化信息访问。
语义网发展面临的挑战_领域本体的半自动构建及检索研究

1.5 语义网发展面临的挑战

(1)内容的可获取性

语义网的内容是根据某些特定的本体进行Web页面标注的,这些本体定义了页面中词或概念的含义。由于语义网的基础架构正在建设中,目前语义网的内容很少[10]。除了基础架构外,研究人员正在开发支持Web内容语义标注的工具,这些工具对于语义网的成功非常关键。但是它们存在两点不足:绝大多数只标注静态页面,还有很多只强调创建新的内容。由此导致了如下不利局面:

忽略了动态产生的内容,动态内容是指由数据库产生的内容,据研究,其容量是静态内容的400~550倍[11]。虽然XML内容是作为内容共享的基础,仍有部分内容有可能被语义网所排除。即使人们期望最终整个Web将语义化,但如果目前高质量的Web内容不能在语义网中访问也非常可惜。

(2)本体的开发和演化

本体是实现语义网的关键,它们携带语义网中内容的含义,即提供标记的词汇表和语义。为应对该挑战需解决三个问题。

第一是能应用于所有领域核心本体的构建。已应用于不同领域的核心本体包括:IEEE的标准顶层本体SUO,电子商务领域的UNSPSC、ROSETTANET等。

第二个问题是为本体开发过程的大部分活动提供方法论或技术上的支持,包括:①知识获取、概念建模和语义Web语言的本体编码;②本体联合和映射、本体集成和本体翻译工具以及本体再造工程工具等;③可重用本体的一致性检查工具等。

第三个问题是本体的演化(Evolution)及其与已标注数据的关系,配置管理工具必须控制每一本体论的版本以及本体论和标注之间的相对独立性。

(3)内容的可扩展性

有了语义网的内容后,接下来需要考虑的是如何以可扩展方式来管理它,包括如何组织、存储和查找等,主要问题有:

第一个问题是与语义网页面的存储和组织相关。“基本”语义网由基于本体的标注页面组成,这些页面的链接结构反映了万维网的结构,即页面之间通过超链接的方式互联。这种超链接方式并不能完全利用语义Web页面的底层语义,必须采用语义索引基于特定主题对语义Web内容进行分类。这是让应用程序能够聚合内容以提供增值服务必须的一步。语义索引将采用本体信息和标注文档动态生成。

第二个问题是与在语义网中方便地查找信息有关,主要是语义索引的协调。考虑到Web资源的语义,必须有方便查找语义网内容的机制。在此,可以采用P2P架构,它与目前WWW的路由器配置类似,可称之为“语义TCP/IP协议”,有一项欧洲语义Web项目正是关于该主题的。索引可看作是活动的Agents,它了解自己的能力。在某一索引中没有出现的主题可以语义级地路由到相邻的索引。在此需采用Agents协商技术以获取主题的语义路由,同时也应用了WordNet中的“语义距离”的概念。因此,就不需要进行语义内容的中心注册,这样使得整个架构的可扩展性更强,语义网的内容可不断添加。同时,这种组织方式与已有的WWW思想保持一致。

(4)多语种支持

WWW上内容的语言分布的研究表明,虽然英语占绝对的主导地位,但其他语言也不容忽视,其比重为:英语68.4%,日文5.9%,德文5.8%,中文3.9%,法文3.0%,西班牙文2.4%,俄文1.9%,意大利文1.6%,波兰文1.4%,韩文1.3%,其他4.6%(摘自:www.vilaweb.com)。对欧洲的WWW资源而言,语言的多样性更为明显。多语种性在以下方面起着越来越重要的作用:

①本体级:本体创建者一般采用其母语来开发本体,标注将在此基础上进行。既然不是所有的人都是本体创建者,该级别的优先级最低。现有的多语种和语言资源,如WordNet、EuroWord-Net和HowNet可用于支持该级别的多语种性。

②标注级:可以采用多种语言对内容进行标注,由于更多的用户(尤其是内容提供者)是标注内容而不是开发本体,为内容提供者采用母语标注内容提供支持很有必要。为了使语义网内容尽可能简便,不能要求一个意大利人以西班牙文来标注内容,反之亦然。

③用户界面级:不管源标注采用何种语言,人们喜欢以母语的方式访问相关内容。虽然目前绝大多数内容是英语的形式,但其他语种的内容也会越来越多。任何语义网方法应方便地访问不同语言的信息,采用国际化和本体化技术实现基于用户母语的个性化信息访问。

(5)本体语言的标准化

语义网是一个新兴的研究领域,W3C将就应用于该领域的语言和技术作出推荐。经过一年左右的工作和讨论,目前该工作组(www.w3.org/2001/sw/we-bont)已提出了Web本体语言的需求分析,并于2002年8月初推出标准本体语言草案(OWL)1·0版。

为构造语义网,相关的工具支持也必不可少,而这些工具也或多或少与语义网语言有关联。目前得到一致公认的本体语言是DAML+OIL(www.daml.org),相关的项目有OntoKnowledge (www.ontoknowledge.org)、IBROW和Esperonto(www.esperonto.net)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈