首页 百科知识 知识组织系统互操作

知识组织系统互操作

时间:2022-02-27 百科知识 版权反馈
【摘要】:近年的知识组织系统互操作研究,不仅提高了不同词表和分类体系之间的互操作,也进行了不同语言的知识组织系统的互操作问题研究。由于知识组织系统互操作的目的主要是为了解决分布式异构数据库的一站式检索,而这些系统普遍应用了分类法和主题词表,因此,当前的知识组织系统互操作研究主要是针对词表和分类法展开的。按照互操作实现的手段,分为基于人工方式的知识组织系统互操作和基于机器辅助的知识组织系统互操作。
知识组织系统互操作_网络环境中知识组织系统构建与应用研究

6.1 知识组织系统互操作

6.1.1 知识组织系统互操作的概念

早在情报检索语言发展的初期,就有学者提出了情报检索语言应具有兼容性,并开始了不同检索语言之间的互操作研究。近年的知识组织系统互操作研究,不仅提高了不同词表和分类体系之间的互操作,也进行了不同语言的知识组织系统的互操作问题研究。

所谓知识组织系统的互操作,是指在不同的分类表、叙词表、本体等知识组织工具中实现兼容互换,即用某一知识组织系统中的词汇及其构造的检索式,能够直接或通过转换适用于多个信息系统。信息系统的互操作可分为系统层、句法层、结构层和语义层,其中知识组织系统互操作是实现信息系统语义互操作的保障。

知识组织系统的互操作具有如下功能:

(1)实现一站式检索和交叉浏览功能;

(2)通过集成创建新的知识组织系统;

(3)提供术语服务。

由于知识组织系统互操作的目的主要是为了解决分布式异构数据库的一站式检索,而这些系统普遍应用了分类法和主题词表,因此,当前的知识组织系统互操作研究主要是针对词表和分类法展开的。

6.1.2 知识组织系统互操作的类型

知识组织系统互操作是为了解决异构、跨领域和多语言问题,据此,从宏观层面,可以把知识组织系统互操作分为跨结构、跨领域和跨语言三种。

(1)按照参与互操作的知识组织系统结构类型异同,知识组织系统互操作可以分为同构知识组织系统的互操作,如多个主题词表的互操作,和异构知识组织系统的互操作,如主题词表与分类法、术语表的集成。

(2)按照参与互操作的知识组织系统领域范围,可分为单学科知识组织系统互操作(专业性知识组织系统)和多学科知识组织系统互操作(综合性知识组织系统)及跨学科知识组织系统互操作。

(3)按照参与互操作的知识组织系统语种,可分为单语种知识组织系统的互操作和多语种知识组织系统的互操作。

(4)按照互操作实现的手段,分为基于人工方式的知识组织系统互操作和基于机器辅助的知识组织系统互操作。

(5)按照互操作实现的层次,可以分为词汇层(syntax)的知识组织系统互操作、语义层(semantic)的知识组织系统互操作和结构层(structural)的知识组织系统互操作。

从参与互操作的具体单元而言,知识组织系统互操作分为词和词之间(term-term),类和类之间(class-class),词和类之间(termclass),词和短语之间(term-phrase)以及类和短语之间(classphrase)等多种类型。

6.1.3 知识组织系统互操作常用模式

知识组织系统的互操作问题并不是最新提出的,早在电子时代到来之前,图书馆和情报领域就在研究各种方法来减少在同一系统中使用不同叙词表的冲突问题。但早期的方法过多地依赖智力劳动,随着计算机技术的发展,人们改进了互操作的方法,为互操作建立了自动化基础。

1983年,Lancaster和Smith总结出词表互操作的5种途径:映射、中介词典、集成词表、微词表、宏词表[2];1997年,Dachelet提出翻译词表、相关词表以及中间词表三种词表互操作方法[3];2004年,著名学者曾蕾和Lois Mai Chan两位学者总结了知识组织系统互操作的8种实现方式,包括继承/仿建模式、翻译/改编模式、卫星子表模式、直接映射模式、共现映射模式、中心转换模式、协议连接模式和临时列表模式[4]。但对于各种模式的适用性、操作条件、结果形式、关键技术和主要问题等方面未有深入的研究报道,且鲜有对中文KOS及互操作的分析。

北京大学王军等学者将这8种知识组织系统互操作方式进行比较,归并出4种类型:演化、映射、协议和临时连接,如图6-1所示。他将卫星子表模式看成是一种以源知识组织系统一部分为基础的扩展的继承,而共现映射是直接映射模式和中心转换模式的一种方法,无论是直接映射模式还是中心转换模式,具体到每两个知识组织系统之间的映射时都可以采取共现映射的方式或基于自身体系结构的映射方式[5]

王军等人对这些互操作方式从实现方式、实现目的、适用范围等多个方面进行了比较,见表6-1。

img53

图6-1 知识组织系统互操作方式分类比较

资料来源:王军,张丽.网络知识组织系统的研究现状和发展趋势[J].中国图书馆学报,2008(1):65~69.

表6-1 知识组织系统互操作实现方式比较

img54

资料来源:王军,张丽.网络知识组织系统的研究现状和发展趋势[J].中国图书馆学报,2008(1):65~69.

由此可见,知识组织系统演化是在已有知识组织系统的基础上、主要以人工方式构建新的知识组织系统;知识组织系统映射是主要的互操作方式,具备进行人工与自动化相结合实现的条件;而基于服务协议和建立临时连接主要是在知识组织系统的应用上,并且对源知识组织系统提出较高的要求。

值得一提的是,在实际的知识组织系统互操作实践中,往往并不是只采用一种模式,而是多种模式组合使用。如美国加州大学的CERES/BRD研究计划,在构建集成环境叙词表时,就同时采用了派生法和卫星子表法[6]

6.1.4 知识组织系统互操作的实例

知识组织系统互操作能够解决知识组织系统应用中面临的多语言、异构、跨领域三个问题。美国肯特州立大学学者曾蕾早在2003年就曾撰文总结国际上知识组织系统互操作的研究项目,并总结出知识组织系统互操作的8种方法[4]。武汉大学司莉于2007年也撰文总结国内外知识组织系统互操作研究项目[6]。表6-2为根据曾蕾、司莉等人的统计总结出的国内外正在展开的各种知识组织系统互操作研究项目。

表6-2 知识组织系统互操作研究项目一览

img55

续表6-2

img56

续表6-2

img57

注:×××表示互操作中该类型的KOS不止一种,×表示互操作中该类型的KOS仅一种。

数据来源:[1]Marcia Lei Zeng,Lois Mai Chan.Trends and issues in establishing interoperability among knowledge organization systems.Journal of the American Society for Information and Technology,2004,55(5):377 ~395.

[2]司莉.知识组织系统的互操作及其实现.现代图书情报技术,2007(3):29~34.

由表6-2罗列出的项目可知,近年国内外KOS互操作项目超过40项,其中UMLS、HILT、Renardus、GEMET等项目成果显著,已应用到具体的信息组织与知识服务中,知识组织系统互操作已成为网络环境中不可回避的重要议题。由表6-2可知:

(1)跨语言的互操作在欧洲很受重视,这源于它的多语言、多文化背景,相关的研究项目有GEMET、Renardus、MACS、Merimee等。我国也有一些关于双语知识组织系统互操作的研究,例如《汉表》与LCSH之间的转换研究、《中图法》与DDC类目的对应、《中国农业叙词表》(CAT)与FAO的AGROVOC的对应等。随着网络普及,利用跨语言互操作来解决多语言和跨语言网络信息检索已成为一种趋势。

(2)异构知识组织系统间的互操作是为了实现不同结构知识组织系统(分类法与主题法)间的知识交换、共享和复用,如OCLC通过人工与统计方法建立LCSH主题词与DDC类号、ERIC叙词表与DDC之间的映射;我国国家图书馆通过专家方法建立《中图法》与《汉表》之间的对应。

(3)跨领域知识组织系统的互操作主要满足交叉学科信息组织的需求,传统知识组织系统经过小型化、专业化发展,已不能满足交叉学科(多为新兴学科、研究热点)信息揭示和检索的需求,跨领域、多来源知识组织系统的兼容化、集成化成为知识组织系统研究和发展的主流[7],如UMLS、HILT等。

此外,由表6-2可知,知识组织系统互操作研究多由欧美等资源丰富的国家在进行。可见,随着资源的日益丰富,深度标引和一站式检索对知识组织工具的集成化也提出了要求。

随着中文资源的日益丰富和需求的日益膨胀,信息资源的深度标引和一站式检索也要求中文知识组织系统能够实现互操作、集成化。国内中文知识组织系统的发展相对滞后,主要以《中图法》和《汉表》两部综合性知识组织系统为中心,各专业领域发展各自的领域知识组织系统。综合性知识组织系统因为要面面俱到而过于宽泛,专业知识组织系统则无法满足逐渐兴起的新兴学科领域(多为交叉学科)信息的加工需求。《中图法》是我国目前使用最广泛的综合性分类法,《汉表》是目前国内规模最大的主题词表。早在20世纪80年代一批情报检索语言学家就开始了这两大知识组织系统之间的兼容互换研究,并于1992年形成《中分表》,同时为了适应新形势的需要,于2000年开始《中分表》的修订改造工作,于2005年出版《中分表》的电子版和印刷版。其他的一些知识组织系统互操作研究也都是围绕《中图法》或者《汉表》展开。但总体说来,我国知识组织系统的建设存在众多问题,如电子化程度低、资源共享性差、自动化建设水平低等。

6.1.5 知识组织系统互操作中的几个问题讨论

知识组织系统互操作的核心在于概念映射,这个映射的过程类似于一个信息检索的过程,在参与映射的各种知识组织系统中匹配出与自己最相近或相似的语词或标识,这个过程可以基于人工实现,也可以借助计算机来自动实现。在互操作研究中有几个值得关注的问题:

(1)映射的方向性问题。知识组织系统互操作中有源知识组织系统和目标知识组织系统之分,但两者的身份并不固定,是动态变化的,相互之间的映射也不完全是一个互逆的过程。映射中完全对等关系毕竟只占一部分,甚至是一小部分,剩下的各种匹配关系都是基于相似度或相关度给出的一个映射推荐。比如,A(源知识组织系统)中“计算机”一词在B(目标知识组织系统)中最相似的映射词是“信息系统”;但反过来从B到A来映射,B(源知识组织系统)中“信息系统”在A(目标知识组织系统)中最相似的概念是“数据系统”而非“计算机”。这就存在一个映射的方向性问题,也称为关系的对称性问题:是单向映射还是双向映射,谁是源,谁是目标。

(2)多概念组合映射的问题。在知识组织系统互操作过程中,往往为了追求对等映射的比例,会采用多概念组合映射。比如A→B+C、A→B-C这样的组合映射关系,即词和短语、类和短语之间的映射,这种多概念组合映射的实现一般基于人工映射或者基于描述逻辑的推导[8],人工参与度大,衡量标准不统一,但增加多概念组合映射能提高对等映射的比例和精度,提高知识组织系统互操作的程度。

(3)映射不一致性的问题。目前的大多数互操作仍是以人工实现为主、机器识别为辅,包括是否建立映射关系、概念重叠程度和映射的类型等等,不同的机构、不同的人衡量标准不一样,必然导致映射数据的不一致情况。如何建立一个定量的、统一的衡量标准;如何解决不同机构或人对同一组映射关系的不一致性问题,是确定一个筛选机制还是允许同时存在。

(4)映射关系的传递性问题。不论是利用知识组织系统的结构来建立映射还是在基于中介词典的转换中都会涉及利用已有的映射关系来推导和传递新的映射关系。比如A exactmatch B和B exactmatch C可以推导出A exactmatch C,但A broader B和B broader C有时推导出A broader C则往往不够准确,比如从“交通工具”broader“汽车”和“汽车”broader“车轮”推导出“交通工具”broader“车轮”这个关系是存在问题的,这种传递往往就会导致映射精度的降低。目前新发布的SKOS中对这种关系的传递性进行了明确的限定,用broader、broadertransitive和narrower、broadertransitive来明确限定这种等级关系是否具有传递性[9]

(5)映射关系的细化和界定问题。SKOS给出了五种映射类型来描述知识组织系统互操作中的映射关系,分别是skos:close-Match,skos:exactMatch,skos:broadMatch,skos:narrowMatch和 skos:relatedMatch[10]。这五种映射类型都是基于概念层面的匹配,但对于每一种具体的映射类型还可以划分出若干不同的情况。比如说skos:exactmatch,可能包含如下情况,如表6-3所示。这些情形的界定可以帮助映射人员或机器识别和判定出相应的映射关系类型。

表6-3 概念映射中“exact match”的各种情形

img58

图表来源:本表中部分数据来自Emma MaCulloch,George Macgregor.Analysis of equivalence mapping for terminology services[J].Journal of information science,2008,34(1):70~92.

(6)映射结果的评价问题。目前对于知识组织系统互操作中映射效果的评价不多,往往是用其对信息检索效率提供的贡献率来反映。Hafedh Mili和Roy Rada于1988年提出了叙词表互操作的基本原则并针对标引和检索两种应用做了互操作效果评价[11]。前面提到映射过程实质上是一个检索过程,不论是人工建立抑或是机器辅助建立,映射关系建立的数量和质量都应该作为评价互操作效果的重要内容。因此,除了统计类型映射关系的数值和比例外,还可以采用检全率和检准率两个指标来评价映射结果,评价整个映射关系的准确性和完整性。

(7)映射效果的影响因素分析。参与互操作的知识组织系统的主题范围重叠度,先组度、专指度和结构的相似情况、转换中介的选择等等都会影响映射的效果。在互操作研究中,如何克服或降低这些因素对映射效果的影响应是值得关注的一个问题。

除了上述问题外,在知识组织系统的互操作过程中还需要关注映射过程的呈现方式,映射结果的筛选和呈现,以及在映射过程中如何将专家智能与机器智能和用户智能相结合来提高互操作的效果和效率[12]等等问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈