首页 百科知识 叙词本体的词间关系及多语种方案

叙词本体的词间关系及多语种方案

时间:2022-02-26 百科知识 版权反馈
【摘要】:在叙词本体中所表达的概念之间的关系比传统叙词表更为具体和确切。另外,在叙词表中,某些反义词也被纳入等同关系,而在叙词本体中,对立关系是独立于等同关系之外的。
叙词本体的词间关系及多语种方案_多语种叙词本体

4.3 叙词本体的词间关系及多语种方案

4.3.1 叙词本体的词间关系

传统的叙词表与叙词本体在逻辑表达形式、构建及修订等方面都存在着很大的差别。但两者最大的不同点在于词(概念、类)间的关系方面。叙词表在表达语义方面受到明显的限制,只包含“用、代、属、分、参、族”这样简单的语义关系对词表中的词进行规范。这些关系往往没有经过严格的定义,对于叙词间关系的表达过于宽泛和模糊,因此就会经常导致词间关系含糊不清,这对使用叙词表的标引来讲,叙词表中的词间关系相对来说比较粗糙。而叙词本体中主题词之间的关系,可以被描述得更广泛、深入、细致和全面。并且可以说,叙词本体中的概念(类)之间的关系是无限的,任何描述所给定的领域本体的关系都可以使用,这些关系用来消除概念之间的歧义,这对计算机智能地发现知识是非常重要的。另外通过对概念添加属性,对属性添加逆反属性,属性与属性之间再添加映射关系,叙词本体可以体现许多在叙词表中无法描述的关系。

4.3.1.1 叙词表词间关系的种类

对于叙词表的概念可以从多个角度来定义,学者王素芳认为叙词表,是收录某一领域中所有叙词(即经过规范化处理的,以基本概念为基础来表达文献主题的词或词组)和非叙词,按照一定顺序排列的词表。其基本单位是叙词款目,每个款目由叙词、分类号和各种参照事项组成。其中叙词是某一概念的优选词,用来标引,其余非叙词为入口检索词。这样就使得同一概念只用一个词表达,解决了一个概念多个术语的问题。而参照项则主要有用、代、分、属、族、参等,如表4-1所示,分别用来表示叙词款目之间的等同、等级、相关等语义关系。其中,等同关系使用“Y”、“D”两种符号加以表示。符号“Y”用于非叙词之下,用来指向对应的叙词,符号“D”用于正式叙词之下,用来指向相应的非叙词。它们可帮助用户区分规范和非规范检索词;等级关系使用“S”“F”“Z”三种符号表示,通过提示等级关系有助于扩大或缩小查找范围,提高检索能力;“C”代表的是词间相关关系,用来提示叙词之间的各种联系,有助于扩大检索范围。借鉴学者刘俊、李华、侯汉清、徐焕良的《叙词表词间关系可视化实验研究》一文,笔者对叙词表词间关系的种类用表4-1表示:

表4-1 叙词表词间关系的种类

img43

国内外许多组织都提出了词间关系的标准,如国际标准化组织、中国国家技术监督局以及联合国粮食与农业组织等。另外,在国内学者中,有些情报学科的专家也对词间关系做出了很好的总结,如张琪玉的《情报语言学基础》。以下分别介绍1986年版《文献工作——单语种叙词表编制与修订准则》(1502788-1986)、《汉语叙词表编制标准》(GB13190-91)、联合国粮食与食品组织及张琪玉的《情报语言学基础》总结的词间关系分类。

4.3.1.2 叙词本体的词间关系

叙词之间的关系主要有三种:等同关系、属分关系和相关关系。叙词表是用“用、代、分、属、族、参”等参照项来描述语义关系,但这种关系的定义并不是非常严格,包含了所有的词间关系,可能会出现一种关系会有几种划分方式的问题。如等级关系中就可能包括:包容关系,如酒和红酒;整体和部分关系,如身体和手;类和实例关系,如教科书和语文课本;角色关系,如知识和知识生产者;属性关系,如衣服和颜色;属性值关系,如衣服和红色等。

叙词本体吸收了叙词表在词汇控制方面的思想,可以通过相应的属性命名机制来定义叙词表中的各种关系,实现词汇控制,并在传统叙词表的用、代、属、分、族、参的简单关系基础上,具有灵活定义概念间关系类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系。在叙词本体中所表达的概念之间的关系比传统叙词表更为具体和确切。

对于叙词表中的词间关系的研究已经比较成熟,很多已成为我们的共识,所以对于叙词词间关系的介绍笔者借鉴了学者贾黎莉的论文《Ontology构建中概念间关系的研究》中对于叙词词间关系的介绍。在叙词表中等同关系一般包括三种:同义词、准同义词以及上位词替代。同义词关系可以作为等同关系纳入叙词本体中,但是准同义词和上位词替代不可以。准同义词是指在常规使用中意义并不相同,但为了标引目的而视为同义词的词汇。而叙词本体中的等同关系概念内涵完全相同。另外,在叙词表中,某些反义词也被纳入等同关系,而在叙词本体中,对立关系是独立于等同关系之外的。在叙词本体中,把概念内涵有一部分相同的类之间的关系称为交叉关系,这样做也是为了与相关关系区别开来。在叙词表中,只要不是等级关系和等同关系的词间关系就被划入相关关系。可是相关关系中的矛盾关系、因果关系等许多关系都是不属于交叉关系的。叙词表中的等级关系也不能直接全部转换为叙词本体中的上下位关系,比如一些时间上的顺序关系,包括生物的进化树、生物个体的发育过程、法律程序等。以哺乳动物的发育过程为例,发育过程包括胚胎期、幼儿期、成年期和老年期。在叙词表中,胚胎期、幼儿期、成年期和老年期均为发育过程的下位概念,完全显示不出这四个时期的先后顺序及相互关系。而在叙词本体中,本体语言可以很好地表达这些知识。

●上下位关系

“属”、“分”、“族”项表示的是概念间的等级关系,在叙词本体中表现为上下位关系。上下位关系(subsumption relation)是以上位概念与下位概念的程度或水平为基础的,揭示的是上位概念叙词和下位概念叙词之间的一种关系。上位概念表示类称或整体,下位概念表示成员或部分。图4-2表示了上下位关系,概念A是概念B的下位概念,概念B的内涵包含概念A的内涵,类似于数理逻辑学中的“B包含A,A包含于B”。例如:“情报”包含“商业情报”,即表示“商业情报”是“情报”的下位概念。

img44

图4-2 上下位关系

传统叙词表中的属种关系、整部关系和包含关系均可归为上下位关系。具体说来,生物属种、地理位置中的整部关系、人体系统与器官之间的关系、学科分支或专业领域、组织机构及其分支以及社会群体等概念之间的关系均属于上下位关系。

上下位关系可扩展出三种子关系:类属关系(the generic relationship),实例关系(the instance relationship)和整体—部分关系(the whole part relationship),如表4-2所示。

表4-2 上下位关系

img45

等级关系中的每一种关系都有反关系,其中有F(分)和S(属)转化成的叙词本体关系是互为反关系的,另外关系可以根据需要动态地增加。

OWL语言使用rdfs: subClassof标签来表示两个类属于上下位关系。例如,概念“情报”包含“商业情报”,使用Protégé本体工具获得的OWL表示语句为:

<owl:Class rdf:ID="情报"/>

<owl:Class rdf:ID="商业情报">

<rdfs:subClassof rdf:resource="#情报"/>

</owl:Class>

上下位关系是可逆的,概念A是概念B的下位概念,则相对应地,概念B是概念A的上位概念,在OWL中定义rdfs: super-Classof标签来代表这个关系,如概念“情报”和“商业情报”的关系还可以如下表示:

<owl:Class rdf:ID="商业情报"/>

<owl:Class rdf:ID="情报">

<rdfs:superClassof rdf:resource="#商业情报"/>

</owl:Class>

上下位之间关系包含非常广泛,在本体语言中仅用rdfs: sub-Classof标签来表示上下位关系是远远不够的。正如表4-2所示,上下位关系包括属种关系、整体与部分关系等。下面列举出表中介绍到的一部分上下位关系的具体定义形式:

(1) componentOf关系和component关系

这里定义componentOf关系来表示部分与整体的关系。例如概念A<componentOf>概念B表示概念A是概念B的一部分,而且概念A是独立存在的。举例来说,“手”<componentOf>“身体”,“抽屉”<componentOf>“桌子”,“果实”<componentOf>“果树”。在OWL语言中,定义owl: componentOf标签来表示componentOf关系,实例“抽屉”<componentOf>“桌子”表示如下:

<owl:Class rdf:about="#抽屉">

<owl:componentOf rdf:resource="#桌子"/>

</owl:Class>

component关系与componentOf关系是一对互逆关系,所以component关系来表示整体与部分的关系。如果概念A和概念B之间存在关系:概念A<componentOf>概念B,则概念B<component>概念A同时存在。在OWL中,定义owl: component标签来表示component关系,实例“血液”<component>“血细胞”表示如下:

<owl:Class rdf:about="#桌子">

<owl: component rdf:resource="#抽屉"/>

</owl:Class>

(2) member关系和memberOf关系

这里定义member关系和memberOf关系来表示组织机构、社会群体等概念之间的关系。它们也是一对互逆关系。如果概念A和概念B之间存在概念A<memberOf>概念B的关系,则概念A是概念B的成员之一。例如,信息管理学院是武汉大学的一个分支机构,则它们之间存在memberOf关系,表示为“信息管理学院”<memberOf>“武汉大学”。在OWL中,定义owl: memberOf标签来表示memberOf关系,实例“信息管理学院”<memberOf>“武汉大学”,表示如下:

<owl:Class rdf:about="#信息管理学院">

<owl:memberOf rdf:resource="#武汉大学"/>

</owl:Class>

member关系也表示社会或政治组织团体之间的关系,它是memberOf关系的逆关系。如果概念A和概念B之间存在关系:概念A<member>概念B,则概念B是概念A的成员之一。在OWL中,定义owl: member标签来表示member关系,实例“信息管理学院”<member>“武汉大学”表示如下:

<owl:Class rdf:about="#武汉大学">

<owl:membe rdf:resource="#信息管理学院"/>

</owl:Class>

(3) belongTo关系和belong关系

对于传统的属种关系,这里单独定义belongTo关系和belong关系来表示。如果概念A和概念B之间存在关系:概念A<belong-To>概念B,则概念A是概念B的一种生物分支或产品类型之一。例如,“牛奶”<belongTo>“乳制品”。在owl中,这里定义owl: belongTo标签来表示belongTo关系,该实例表示如下:

<owl:Class rdf:about="#牛奶">

<owl:belongTo rdf:resource="#乳制品"/>

</owl:Class>

如果概念A和概念B之间存在关系:概念A<belongTo>概念B,则以下关系也同时存在:

概念B<belong>概念A。例如“牛奶”<belongTo>“乳制品”也可以同时表达为“乳制品”<belong>“牛奶”。在OWL中,本文定义owl: belong标签来表示belong关系,该实例表示如下:

<owl:Class rdf:about="#乳制品">

<owl:belong rdf:resource="#牛奶"/>

</owl:Class>

●等同关系

“用”、“代”项表示的是等同关系,叙词表中的等同关系是用来表示概念上相同或相近的一组词,可以相互替代的语词之间的一种关系。将其中一个词定义为叙词,其他词规定为非叙词,非叙词与对应的叙词是用、代关系。如“情报”与“信息”的词间关系就属于等同关系。在OWL中,可以将用代关系表示的叙词都表示为等价类,用<owl: equivalentClass>标签来描述这种关系。举例来说,“情报产业”<equivalentClass>“咨询业”的表示如下:

<owl:Class rdf:about="#情报产业">

<owl: equivalentClass rdf:resource="#咨询业"/>

</owl:Class>

但是,在等同关系中,有一部分叙词与其指代的非叙词在其内涵和外延上并不是完全等同,或存在着单双向等同。所以需要细化等同关系,经过研究我们归纳整理出原有叙词表中的等同关系分别对应的可能的叙词本体的逻辑关系,如表4-3所示。在填充叙词本体的属性及属性约束时,可以参照这个关系进行映射,从而快速地完成从叙词表概念向叙词本体的映射。

表4-3 叙词关系与叙词本体等级关系的对照表

img46

●相关关系

“参”项表示的是相关关系,是指概念内涵之间的语义联系的词间关系。它是叙词之间除等同关系、等级关系之外语义相关的一种关系。包括事物之间的交叉关系、矛盾关系、对立统一关系、形式与内容关系、本质与现象关系、原因与结果关系等,都是反映事物内在联系相关的概念之间的语义关系这些不同方面的相关关系,反映了事物之间的某种密切的联系。众所周知,自然语言中概念之间的相互关系是非常复杂多样的。传统的叙词表仅用“参”项来表示具有丰富语义联系的相关关系,其对概念语义关系的表达较为薄弱和贫乏。叙词本体相对来说是一个开放的体系,概念(类与实例)之间的关系类型可以由用户自行定义,如表4-4所示。

表4-4 叙词关系与叙词本体相关关系的对照表

img47

相关关系的子关系属性拥有很大的自由度,可以根据具体的应用环境从列表中进行选择,也可以在共享应用的过程中根据使用者(如领域专家)的要求进行扩展,从而细化概念间的关系粒度,使来自叙词表的粗粒度本体逐渐演变成细粒度本体,满足特定领域的逻辑推理需求。

(1)矛盾关系

img48

图4-3 矛盾关系

矛盾关系(antinomy relation)指在同一上位概念下两个下位概念间的内涵完全否定的关系,即两个下位概念内涵相互排斥,但这两个概念的外延之和应大于其上位概念的外延之和。以图4-3为例,概念A和概念B同为概念C的下位概念,但它们的内涵完全不同,则概念A和概念B互为矛盾关系。例如:“阴”和“晴”均属于“天气状况”的一种,且其内涵相互矛盾,但是天气状况还包括“多云”、“小雨”、“中雨”等,所以“阴”和“晴”之间的关系属于矛盾关系。又例如,信息检索中的“检全率”和“检准率”。矛盾关系是一种非常普遍的关系,很多概念间都存在着矛盾关系,例如:“黑”与“白”,“民主”与“集中”等。矛盾关系的表现形式为:概念A<antinomy>概念B。在OWL中,定义owl: antinomy标签来表示反义关系,实例“黑”<antinomy>“白”表示如下:

<owl:Class rdf:about="#民主">

<owl:antonym rdf:resource="#集中"/>

</owl:Class>

(2)互补关系

互补关系(complement relations)指在同一上位概念下的两个下位概念间的内涵完全否定的关系,这两个下位概念外延相互排斥,且其外延之和等于该上位概念的外延。“传染性病害”的概念和“非传染性病害”的概念就属于排他关系,它们同属于概念“病害”,共同组成了这个概念。

互补关系和矛盾关系有其相似之处,它们均属于同一上位概念下的两个下位概念,其不同之处在于这两个概念的外延之和等于还是大于其上位概念的外延。

在OWL中,使用一个词汇owl: disjointWith属性来定义互补关系。定义如下:

<owl:Class rdf:about="#传染性病害">

<owl:disjointWith rdf:resource="#非传染性病害">

</owl:Class>

一个领域中最基本的概念莫过于各种分类树的根,OWL中的所有个体都是类owl: Thing的成员。如果两个类的内涵之和为类,而它们的内涵完全矛盾,则这两个类之间为互补关系,在OWL中定义了标签owl: complementOf来表达这种特殊的互补关系。“主观”和“客观”的例子如下:

<owl:Class>

<owl:complementOf>

<owl:Class rdf:about="#主观"/>

</owl: complementOf>

</owl:Class>

该例子定义了不是“主观”的概念,这个概念与“主观”的概念之间存在互补关系。

(3)动作关系

动作关系(behavior relations)是概念间关系中比较特殊的一类关系。它是指两个类之间存在的相互作用的关系,与语言学中的“动谓宾”关系有点类似。例如在因果关系中,如果某种行为导致某个结果,它们之间存在动作关系resultIn。举例如下:“分株—resulting—死亡”,而“分株”本身是一种动作,如“农民—分株—大麦”。

许多研究领域本体的组织和机构就曾在自己的领域本体中提出过一些这类动作关系。联合国粮食与农业组织曾在其网站上发布过这类比较具体的关系,包括affects和affected_by、beneficial_ for和benefits from、causes和caused_by、growsIn和growthEnvironmentFor等。这些关系中,有些可以在各个领域通用,有些不可以。并非所有的动词都可直接拿来做动作关系,只有及物动词才能考虑。而且,这个动词还必须能应用于大部分领域。目前在动作关系上没有比较统一的标准和实现办法,这也是需要研究的地方。

4.3.2 多语种叙词本体构建方案

4.3.2.1 多语种叙词本体的概念

多语种叙词表是在普通叙词表的术语及关系中,加入了不同语种的映射。这使得它不仅仅是跨语言信息检索的重要工具,而且是一个多语种的语义词典,在语义网、跨语言知识组织与管理、全球信息资源组织等方面有广阔的应用前景。

对于多语种叙词表的构建与研究,国际上历来重视。早在1985年,国际标准化组织就制定了ISO 5964标准,规范了多语种叙词表的制定和修改规则。随后,许多国家也制定了自己国家的专业叙词表,并附带有其他语种叙词,目前编制完成的叙词表超过2 000种。近年来国外学者的研究主要集中在叙词表的体系、构建及使用等方面,如叙词的确定、词组和元数据的划分、结构的安排、索引、搜索等。

本体是“一个概念模型的明确的规范说明”,在应用上,本体对概念及其关系的描述更加精细,这一点特别适合于多语种的映射。因此,将叙词表构建成多语种本体是综合了本体与叙词表两方面的优势,它不仅完全保留了叙词表在功用方面的优势,而且可以利用本体的学习功能使叙词表具有自动维护的功能。而这正是叙词表应用范围与利用率发挥作用的关键。

根据叙词本体的描述语言,可以将叙词本体分为单语言叙词本体和多语言叙词本体两大类。简而言之,单语言叙词本体就是采用一种语言(或主要是一种语言)描述的叙词本体。多语种叙词本体则是包含了多种语言的叙词本体。同多语种叙词表一样,多语种叙词本体也是为跨语言信息检索服务的。通信和网络的发展使得任何一个领域的发展都离不开国际大环境,只有在充分了解国内外的发展情况下,才能够促进本领域的科技发展。那么要与世界融合,必定涉及不同语种的交流。因此多语种叙词本体是必要和必需的。利用多语种叙词本体,不仅可以为一篇文献标引不同语种的索引词,而且可以将输入的某语种的非规范化语言转化为多语种的规范化语言。尤其是在跨语言信息检索时会给用户带来很大的方便。用户只需要输入自己所熟练掌握的语言,通过多语种叙词本体完成文献标引的索引词与检索词之间的匹配,就可以检索出多种语种的文献,提高文献的检全率。

多语言叙词本体(Multilingual ontologies)是叙词本体在不同语种中的具体表示形式,类似于不同语言的语义词典,是实现跨语言信息检索的一个重要工具。多语言叙词本体本身具有很多特征,而其中最为关键的一个特征是跨语言同义词规范,即来自不同语种的叙词本体库对应的概念内涵是一致的。多语言本体其中一个很重要的作用就是用于跨语言信息检索,而引入跨语言同义词规范,能够使得用不同语种描述的概念之间能够准确地进行一一对照。这样带来很明显的一个改进就是,这个共同的概念内涵仅仅只需要用一些简单的符号或者数字来描述出其含义,而不需要专门用任何一个语言的词汇来表示。简单举个例子,我们可以用“1234”这几个数字来标识概念“a person who trains or directs athletes or athletic teams”,而此概念用英文词汇进行描述就是“coach”,与之相对应的,用中文词汇对其进行描述的词汇就是“教练”。

通过对多语言概念及其关系的精确定义来达成共识,对该领域的专家来说,即使采用不同的语言也能畅通无阻地进行信息的交流。姚文琳、王存刚等学者曾指出实现多语言本体的两种策略,根据这一策略笔者认为实现多语言叙词本体的两种策略是:①采用ontology集成技术,通过概念与概念之间的映射、ontology学习等技术将基于特定语言的Ontologies合成起来;②建立一个通用的多语言ontology。

4.3.2.2 多语种映射解决方案

多语种映射的直接目的是将同一术语用多种语言表示。另外,本体映射对于语义网络的数据互用性是非常重要的,这是因为它在代理和服务之间实现互用性的预处理。叙词本体的底层是基于本体的术语库,因此,映射方案与本体库的构建方案有紧密的关系。

(1)本体间的多语种映射研究

国内学者芦明、李冠宇、史一明认为本体映射是发现两个本体的概念之间的映射关系或相似程度的过程,在已生成的本体上建立联系,以便双方能使用通用的接口,对同一事物有共同的理解。具体地说,它是本体间概念及其关系取得一致性的一个规范说明;除此之外,它还是本体结盟、本体集成、本体合并、本体翻译等的技术基础,其目的就是找到不同本体中概念之间的对应关系,并制定出相应的映射规则。在某种特定情况下,本体映射可以看做是一个有向的映射关系,举个例子:对于a到b的映射,称本体a为源本体,b为目标本体。

按照语种构建不同的本体,而在不同语种本体之间通过映射来实现相似信息的互用。由于叙词本体的底层是基于本体的信息存储库和管理功能集的,因此可以在底层构建多语种的不同本体,来实现多语种叙词本体的构建。目前关于本体映射的研究已提出了多种映射方法,如: FCA-映射方法,将认知支持理论与决策制定结合起来实现的自动本体映射方法,将标准字符串的距离特征与基于向量表现的结果化相似度测量结合起来实现的本体映射方法,基于OCL的本体映射方法,基于信息检索与交互活动网的方法,利用OMEN工具的方法,LiteMap方法以及IAOM方法等。

(2)固定中心与动态中心策略

本项目在研究中发现,实现多语种叙词本体的构建有两种方案,一种是固定中心方法,即以某一种语言为中心语言,以此语言构成叙词表,其他语种作为实例的一个属性;另外一种是动态中心方法,即以不同的语言分别建立自己独立的叙词本体,通过本体映射在不同语种叙词本体之间建立联系。

前者关系是固定的,构建相对容易但维护不便,表示层中非中心语言的可视化实现也比较复杂,通过跨语言检索也会影响查找速度。后者构建时的工作量大,但是一旦构建完成,维护相对比较容易,它特别适合于新词的更新。当某一语种出现新词时,直接在属于该语种的叙词本体中增加新词及相关属性,若其他语种还没有表达相同概念的语词时,映射关系设置为无;当某一语种与其他语种叙词本体中的概念关系发生改变时,只需要改变映射关系即可,而不需要去更改各种语种的本体层。这有点类似数据库中的三层模式,两级映射。

对于多语言ontology的研究,笔者参考姚文琳,王存刚等学者的论文《基于核心概念集的多语言Ontology》中的描述。通过著名的项目AGROVOC和EuroWord Net(欧洲的欧语词网)来说明两种主要的方法,即单一概念(Single Concept)方法和中间语言(In-terlingua1)方法。它们实现多语言ontology中的方法都是基于第二种策略。其基本构建过程是:每一个特定语言中的词汇和用中间语言表示的概念建立一个映射关系。一个词汇通常会有多种含义,严格来说应该是将词汇的每一个含义映射到中间语言表示的一个概念。不同自然语言中的词汇可以映射到用中间语言表示的同一个概念,但是对用中间语言表示的概念来说,并不需要对所有自然语言的词汇建立映射,这要根据实际的需求来决定。具体方法介绍如下:

(1)单一概念方法——AGROVOC

在单一概念方法中,每一个概念有单一的表示,这种表示包括了概念到多种自然语言的词汇(Terms)的翻译关系。以AGROVOC为例,AGROVOC是由联合国食物和农业组织(The United Nations Food and Agricultural Organization)开发的多语言农业词典。一台这样的中心服务器可以提供包括英语、法语、西班牙语、汉语以及其他自然语言的多语种服务。一部AGROVOC词典包含了BT,NT,RT,UF四种关系,其中BT表示Broader Term,RT表示Related Term,NT表示Narrower Term,UF表示Used For。词典中的每一个词条均包含了BT/NT/RT/UF这四种关系及每一种自然语言相对应的词汇。例如,“beef”词条包含:

BTmeat

BT animal products

RT veal

English:beef

Spanish:carrne de res

French:vlande bovine

Portuguese:carne de bovino

其中,BTmeat表示“meat”是“beef”的上层概念,BT animal products表示“animal products”又是“meat”的上层概念,RT veal表示“veal”是“beef”的相关概念。向AGROVOC词典中添加新的词条时,需要列出所有支持该语言的对应词汇。例如,向词典中加入“beef”词条,需要列出西班牙语的“carne de res”,法语的“vlande bovine”等和英语“beef”与之相对应的词汇。尽管AGROVOC词典在某种程度上简化了多语言词汇的创建,但是现实情况是,并不是所有的概念都可以简单地对应翻译成其他自然语言语种的词汇,即有些概念在某种语言中很可能就没有对应的词汇,这就会造成“词汇间隙”现象。

(2)中间语言方法——EuroWordNet

在中间语言方法中,采用了多层次表示,包括用中间语言表示的概念层和用每一种自然语言表示的词汇层。以EuroWordNet为例,它是一个多语言ontology,建立在Word Net基础之上。它是由普林斯顿大学Miller等人开发而成,是一个建立在心理语言学原则基础上的机器词典。WordNet可以用来表示不同自然语言的词形和词义:用大众比较熟悉的语言拼法来表示词形,用同义词集Synsets来表示词义。除此之外,WordNet还提供了处理同义词(Synonyms)和一词多义(Homonyms)现象的机制。在WordNet中,一个词汇首先被分解成不同的含义,这些含义要按照不同的词性(名词、动词、形容词和副词)加以分类。每一个词汇的不同含义都需要映射到一个同义词集(Synset,即Synonym Set),同义词集则用来对不同的概念进行描述。有相同含义的不同词汇映射到同一个同义词集上。同义词集包含注释(用英语给概念下的简短定义)和其他信息。EuroWordNet采用了与WordNet完全相同的架构(以同义词集表达语义关系),以助于实现与英语的链接,但同时它又将WordNet进行了扩展,使之能提供多种自然语言支持。在EuroWordNet中,它并不要求一种语言中的概念必须与另一种语言中的概念完全相同,因为词汇和同义词集的建立是“半依赖”于每一种自然语言的。例如,英语有自己的词汇和同义词集,法语也有它自己的词汇和同义词集,这就使得在描述特定语言概念的时候具有更大的灵活性。不同自然语言之间的关系是由同义词集建立起来的。

中间语言法用中间语言索引(Inter Lingual Index,ILI)将含义相同的来自不同语言的同义词集映射到同一个概念上。例如,英语和法语是两种完全不同的语言,但是如果这两种不同的语种的一个同义词集描述的是同一个概念,这两个同义词集是可以通过ILI联系在一起。通过ILI,不同语种表示的同义词集之间就可以建立起某种特定的关联。但是,不同语言的词汇之间并没有直接相连。ILI本质上是用来标志不同语言的同义词集之间等价关系的一种方法。然后ILI并没有形式化表示的结构,它只是一个链接等价同义词集的一种机制。作为一个中间语言方法,ILI提供的ontology功能是比较单一弱小的。另外,ILI的同义词集来自WordNet,尽管它的非英语语种的同义词集内容可以不断扩展,但从历史渊源上来说,它还是更偏重于英语,而不是对所有的语种“一视同仁”。

这两种方法对于我们实现多语种叙词本体的构建有着重大的借鉴作用。我们可以综合两种方法的优点,尽可能克服其不足的地方,实现多语种叙词本体的构建。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈