首页 百科知识 多语种叙词本体

多语种叙词本体

时间:2022-02-26 百科知识 版权反馈
【摘要】:同多语种叙词表一样,多语种叙词本体也是为跨语言信息检索服务的。因此多语种叙词本体是必要和必需的。因此从单语种叙词本体扩展到多语种叙词本体是比较方便的。由于叙词本体的底层是基于本体的信息存储库和管理功能集的,因此可以在底层构建多语种的不同本体,来实现多语种叙词本体的构建。
多语种叙词本体_多语种叙词本体

3.4 多语种叙词本体

3.4.1 多语种叙词本体

多语种叙词本体则是包含了多种语言的叙词本体。同多语种叙词表一样,多语种叙词本体也是为跨语言信息检索服务的。通信和网络的发展使得任何一个领域的发展都离不开国际大环境,只有在充分了解国内外的发展情况下,才能够促进本领域的科技发展。那么要与世界融合,必定涉及不同语种的交流。因此多语种叙词本体是必要和必需的。利用多语种叙词本体,不仅可以为一篇文献标引不同语种的索引词,而且可以将输入的某语种的非规范化语言转化为多语种的规范化语言。尤其是在跨语言信息检索时会给用户带来极大的方便。用户只需要输入自己所熟练掌握的语言,通过多语种叙词本体完成文献标引的索引词与检索词之间的匹配,就可以检索出多种语种的文献,提高文献的检全率。

在本体模型中,类的属性具有良好的扩展性。若以类存储某一概念,其他语种相应的词汇即可作为这个类的属性存储(这是多语种映射的方案之一)。因此从单语种叙词本体扩展到多语种叙词本体是比较方便的。

3.4.2 多语种映射解决方案

多语种映射的直接目的是将同一术语用多种语言表示。另外,本体映射对于语义网络的数据互用性是非常重要的,这是因为它在代理和服务之间实现互用性的预处理。叙词本体的底层是基于本体的术语库,因此,映射方案与本体库的构建方案有紧密的关系。

(1)多语种映射研究及处理策略

按照语种构建不同的本体,而在不同语种本体之间通过映射来实现相似信息的互用。由于叙词本体的底层是基于本体的信息存储库和管理功能集的,因此可以在底层构建多语种的不同本体,来实现多语种叙词本体的构建。目前关于本体映射的研究已提出了多种映射方法,如: FCA-映射方法,将认知支持理论与决策制定结合起来实现的自动本体映射方法,将标准字符串的距离特征与基于向量表现的结果化相似度测量结合起来实现的本体映射方法,基于OCL的本体映射方法,基于信息检索与交互活动网的方法,利用OMEN工具的方法,LiteMap方法以及IAOM方法等。这些研究成果可以作为本书研究的基础,直接用于叙词本体的多语种映射。

我们在研究中发现,实现多语种叙词本体的构建有两种方案,一种是固定中心方法,即以某一种语言为中心语言,以此语言构成叙词表,其他语种作为实例的一个属性;另外一种是动态中心方法,即以不同的语言分别建立自己独立的叙词本体,通过本体映射在不同语种叙词本体之间建立联系。

前者关系是固定的,构建相对容易但维护不便,表示层中非中心语言的可视化实现也比较复杂,跨语言检索时也会影响查找速度。后者构建时的工作量大,但是一旦构建完成,维护相对比较容易,它特别适合于新词的更新。当某一语种出现新词时,直接在属于该语种的叙词本体中增加新词及相关属性,若其他语种还没有表达相同概念的语词时,映射关系设置为无;当某一语种与其他语种叙词本体中的概念关系发生改变时,只需要改变映射关系即可,而不需要去更改各种语种的本体层。这有点类似于数据库中的三层模式,两级映射。

固定中心与动态中心两种策略各有优点与不足,两种策略下的本体库的结构设计及处理方案都不尽相同。以下的示例说明了固定中心策略下技术处理的主要内容:叙词本体的结构设计与多语种映射的处理方案。

(2)固定中心策略下的结构设计与多语种映射实现

固定中心方案是以某一种语言为中心语言来构建叙词本体。在底层的语料库的结构设计中,中心语言的每一个概念/叙词作为一个类。曾新红在研究用OWL表示中国分类主题词时设计了15种类型的类,7种表示词间关系的属性和两种描述类特征的属性,以及21种隐含语义的属性,达到了对语义深层次揭示的目标。

①统一的概念类:我们研究的重点目标之一是多语种映射与关联性展示,为了使处理过程模式化,我们把描述叙词的类,统一地抽象为一个类:概念类(Concept class)。在概念类中用一个属性classType来表示它的种类。例如:

<rdfs: classType>GeneralConcept</rdfs: classType>

所表示的是一个一般通用概念;而:

<rdfs: classType>PersonConcept</rdfs: classType>

则表示这是一个关于“人物”的类。这种方式可根据发展与处理需要,调整与扩充类的类型,所以处理起来要灵活一些。

②多语种映射:固定中心方案实现多语种映射相对容易,语料库中每一个叙词的语种关系是固定的。构建叙词本体的结构中,中心语言的每一个叙词为一个类,只要在每一个类中加入其他语种的相应词汇即可。我们在概念类中设置了一组语种属性,用于表示其他语种的相应的词汇。下例显示了主题词“系统”的语种属性(以中文为中心语言)。

<owl:Class rdf:ID="系统">

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty rdf:resource="#English"/>

<owl:hasValue rdf:datatype="&xsd; string">system</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty rdf:resource="#Japanese"/>

<owl:hasValue rdf:datatype="&xsd;string">システム</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

……

</owl:Class>

③语种扩展:以上的示例中只列出了语种映射相关的属性,省略了词间关系及其他描述的属性。语种属性虽然只列出英文、日文两种,但正如前面所述的,由于本体的类属性可在程序的管理下调整与扩展,所以可在需要时添加其他语种。语种属性的扩展操作按统一的模式进行,具体步骤及方法是:定义语种属性类→在概念类中语种属性区(上例中的“……”部分)添加语种属性→添加相应语种的词汇。

这个示例显示:本体技术良好的可扩展特性,使得处理多语种映射问题既简便又灵活。传统的网络叙词表构建技术主要基于数据库,数据模型大多采用“关系”模型。比较而言,关系模型的结构设计相对固定,使得结构变更(调整、扩展)在技术处理上比较困难。而本体技术在这方面具有较大的优越性,另外,本体的自学习技术与自演化技术等,也可使这种扩展更具有智能性。

④功能模型:我们要构建的叙词本体必须具有自学习和自动演化的能力。基于本体为底层的叙词本体,可以利用吸收本体学习、自动演化以及本体演化管理已有的研究成果,来完善叙词本体的自动维护和进化。

本体学习的目标是利用各种技术(如统计、神经网等)自动或半自动化地从已有的数据资源中获取期望的本体,其任务包括概念的获取,概念间关系的获取以及公理的获取。目前关于本体学习的方法主要有基于传统搜索引擎相似度框架的本体学习方法,从文本数据及用于抽取知识的规则中,自动抽取知识的方法,基于词汇条目抽取的方法以及从关系数据库中挖掘检索日志来辅助本体学习的方法等。除此之外,可以利用Hasti、OntoLearn、Text-To-Onto、OntoBuilder、OntoLiFT等本体学习工具来加快本体学习的效率。

传统的叙词表更新比较困难而且工作量很大,需要很多领域专家共同参与才能完成,在叙词更新上存在与学科发展不同步(严重滞后)的现象。为了跟进领域知识的发展,需要使叙词表自动的学习和更新叙词表中的概念。而本体具有自学习的特性,因此利用本体的自学习功能来实现叙词表的自动更新不失为一种解决方法,这也是构建叙词本体概念的原因之一。学习的目的是抓取网络上出现的新词汇,甄别词汇的规范性,自动归类到所属领域,以及多语种新词汇间映射关系的更新等。当然,就目前的技术而言,是不能完全实现自动化的,在学习和进化的过程中,也需要领域专家的参与。而专家们之间的协作和冲突的削减都是研究的重点问题。

本体演化是指本体根据出现的变化以及由这些变化所引起的本体不一致性问题的自适应性变更。目前已有一些关于本体演化方法,如斯坦福大学的代数方法和AIFB的方法、分布式多语义本体的演化方法、通过关系限制来管理本体演化的方法等。一些专家还从实际角度研究了本体演化的步骤,并且构造了本体进化的框架EDOCOM1。这些较成熟的研究为我们研究叙词本体的自动维护及进化提供了理论基础与方法准备。

除此之外,多语种叙词本体的自动演化还涉及版本的管理。叙词本体中的概念和术语都是规范化的,不是任何网络或者期刊上出现的新词汇都可以加入到叙词本体中的,它必须经过严格的分析和筛选后才能作为规范词增加到叙词本体中。因此,演化过程应该强调保存历史版本,记录下演化的日志,还需要有监督机制来审核每一步的变化。

当然叙词本体演化过程对用户来说是透明的。即叙词本体演化需要在保证具有传统电子叙词表使用便利,结构优良,关系简练明了,概念清晰等功能的基础上,在用户察觉不到叙词本体在不断更新的情况下实现。

在后续的章节中,还将就这一问题进行详尽的讲解。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈