首页 理论教育 基于集成的领域知识组织系统构建

基于集成的领域知识组织系统构建

时间:2022-02-27 理论教育 版权反馈
【摘要】:因此,通过对多个学科的知识组织系统的集成来构建新型的领域知识组织系统是以叙词表为代表的知识组织系统研究和发展的重要方向。
基于集成的领域知识组织系统构建_网络环境中知识组织系统构建与应用研究

6.2 基于集成的领域知识组织系统构建

6.2.1 基于集成的领域知识组织系统构建意义

术语表、分类表、叙词表、知识本体等知识组织系统是加工信息、组织资源、提供知识服务的语义工具,在文献信息服务中扮演着重要角色。传统的知识组织系统往往以某种知识体系为框架,为特定目的而设计,每个知识组织系统都有一个总体结构和学科范围。按照领域范围划分,知识组织系统可分为综合性知识组织系统和专业性知识组织系统。综合性知识组织系统收录多个学科的概念,但限于篇幅,概念相对宽泛,如由中国科学技术信息研究所编制的《汉表》,收录了社会科学、自然科学、工程技术等各个学科的概念,但总词汇量仅十万余,无法专指地揭示概念,因此不适用于具体领域信息的深度标引和专指检索。因此,从20世纪80年代后期开始,知识组织系统向小型化、专业化方法发展,形成了一系列的专业分类表和叙词表,如《农业叙词表》、《环境科学叙词表》、《交通汉语主题词表》、《军事信息资源分类法》、《医学专业分类表》等等,这些专业化的知识组织系统相对于综合性知识组织系统而言,收录的概念更加细微、专指,对于专业文献信息的深度标引和专指检索具有重要意义,为专业信息资源的管理带来便利,但同时也导致一些问题。这些专业知识组织系统一般是面向某一学科的,而科学研究中交叉学科通常才是研究活跃的领域,在一些前沿研究文献中,往往会涉及多个专业领域的术语,如一篇博士论文《基于本体的鱼病知识获取与诊断推理集成系统研究》的关键词包括:“领域本体”、“知识获取”、“遗传算法”、“基于案例推理”、“鱼病诊断”、“集成系统”,这些关键词涉及数学、农业、计算机等诸多学科领域。一部专业词表往往很难全面覆盖这些词汇,因此,必须构建面向具体领域、多学科交叉的知识组织系统,从传统的、面向学科专业的知识组织系统向面向领域的知识组织系统转化。

知识组织系统的人工构建是一件耗时耗力、智力依赖型的工作,而限于当前的自然语言处理技术水平,自动构建的效果不佳。因此,通过对多个学科的知识组织系统的集成来构建新型的领域知识组织系统是以叙词表为代表的知识组织系统研究和发展的重要方向。通过研究知识组织系统的统一计算机化表示形式、规范和技术接口,从而集成各专业分类法、叙词表、术语表、兼容现有多种格式的各种词表。通过跨学科的知识组织系统的集成,将盘活原有的各种知识组织系统,降低构建新的知识组织系统的成本,使各种知识组织工具能够在信息智能处理过程中充分发挥作用。

因此,在网络环境下,基于各种传统的知识组织工具,通过集成创新的方法构建新型的、面向特定领域应用的知识组织系统具有重要的意义。其集成的意义主要体现在三个方面:①通过在不同知识组织系统之间建立映射,达到整合资源、提高信息检索效率的目的;②通过不同知识组织系统的集成整合创新出新的知识组织系统,以降低知识组织系统开发成本和难度,提高信息表示和知识揭示的深度;③通过多知识组织系统的集成,基于Web Service技术提供术语服务,以盘活各种传统知识组织工具在网络环境中的应用等。

6.2.2 基于集成的领域知识组织系统构建技术路线

基于集成的领域知识组织系统构建是建立在知识组织系统互操作基础之上,在合并(mergering)、映射(mapping)的基础上实现集成整合(integrating)。本研究来自国家“十一五”科技支撑计划重点项目“科技文献信息服务系统关键技术研究及应用示范”子课题“知识组织系统的集成及服务体系研究与实现”(2006BAH03B03),将结合相关知识组织技术,通过对现有知识组织工具的深入研究,完成跨学科、多来源知识组织系统的集成实验,并就多学科交叉的“新能源汽车”领域完成集成构建实验。

知识组织系统集成构建技术路线主要研究集成的步骤、各个阶段的输入输出以及支撑技术和工具。具体路线初步拟定如图6-2所示,自底向上分三部分完成。

第一部分为词表融合,如图6-2中A部分所示。通过对现有各种知识组织系统的规范化表示和语料中新词汇的发现构建基本的词索引库(包括词和关系);利用关系推导、模式识别同义词挖掘方法发现词索引库中的同义词,完成词汇句法层面的集成;通过关系逻辑的整理对词表中原有的词间关系进行选择、推导和调整,同时利用关联挖掘方法发现来自不同词表的术语词汇之间的关联,实现结构层面的集成;进行集成词表内部一致性检查,避免语义冲突,形成集成基础词库。主要研究包括:①词索引的结构,主要在SKOS概念属性的基础上尽可能详尽词及词间关系的描述信息;②同义词的发现,不同同义词识别算法的研究和综合使用;③关系逻辑规则整理,用描述逻辑来描述和推导词间关系,通过提炼关系逻辑推导规则来进行词间关系的整理,实现语义互操作。

img59

图6-2 知识组织系统集成技术路线

第二部分为集成创新,如图6-2中B部分所示。即在集成基础词库的基础上面向具体领域或具体应用,利用当用词筛选模型筛选出一个当用词表(current vocabulary)。这是在集成基础上的动态创新,是构建新知识组织系统方法的一种尝试。在此过程中有两大主要问题:①当用词筛选模型;②集成词表评价模型。

第三部分为概念词库构建,如图6-2中C部分所示,是对集成词库中词汇语义关系的细化,为将来构建更高一层的知识组织系统(如语义本体)提供资源基础。主要包括:①词汇语义关系类型的定义;②词汇语义关系的细化,尤其是自动识别技术的探索等内容。

这个集成构建的过程并不是一蹴而就的,应是一个分阶段、分步骤,逐步精化的过程。

6.2.3 基于集成的领域知识组织系统构建主要问题

(1)知识组织系统的规范化表示和描述

虽然目前已经形成了Z39.19、BS8723、Zthes等电子词表规范和标准。但这些标准一方面未能摆脱传统词表的模式,另一方面不能为不同知识组织系统的共享、交互和集成提供一个解决方案。W3C发布的SKOS推荐标准为词表的描述和集成映射提供了一个规范基础,但SKOS的研究刚刚起步,基于RDF使其缺乏精确的描述能力,只能表示低层次的语义,概念之间的关系比较简单、粗糙,需要面向具体领域细化语义关系类型,扩展SKOS概念描述的能力。在本研究中,针对“新能源汽车”领域术语概念的特点,我们提炼出了15种一级关系类型、76种二级关系类型(含互逆关系)用来细化概念关系。

(2)集成中的语义融合问题

知识组织系统集成并不仅仅是两个同型词表的简单合并,而是要实现对不同知识组织系统中的词、概念和关系的分析,消除各系统间的语义冲突,形成一致的集成词表。在这一语义融合的过程中,一方面需要实现词表在句法层、结构层和语义层的兼容互换和一致性处理,另一方面还需要借助于文本语料的挖掘来发现词语之间未揭示出来的关联,并在领域专家的辅助下完成概念之间的关联。语义融合是集成构建中最主要的问题,它包括概念的映射和语义关系的选择、调整和发现,其中重点要解决的问题有[7]

①同义词挖掘和多义词消歧。跨领域、多来源知识组织系统集成中,不可避免会遇到同义词和多义词问题,同义词的挖掘和多义词的消歧这两类问题可以划归为字形句法层面的融合问题。

②概念映射的建立。不同来源的术语概念在集成时,除了建立词形上的一致,还要进行概念上的映射,把不同概念之间的映射关系建立映射文件,以作为后续调整词库结构和生成集成基础词库的依据。概念映射是一项工作量巨大的任务,如果完全依赖人工完成将是不可想象的,图6-1为笔者根据S.Faro等人的报告罗列出的常用概念映射方法,虽然有些方法并不适用于汉语,但基于多方法集成的概念映射关系建立将是知识组织系统互操作和术语映射的一个重要方法。图6-3将映射方法分为三大类型:词汇层、结构层和语义层,这种划分与知识组织系统互操作的实现层次接近[13]。其中词汇层的实现较简单,主要基于字面和词汇结构来实现,是一种基于字面相似发现相似术语而未必是概念上的等同;结构层主要基于术语概念在原有知识组织系统中的相关信息(比如同义词、上下位词、注释等)来发现或推导出一定的关联;而语义层的映射则主要依赖外部资源,如语料或其他语义词典来计算术语的概念相关度,从而建立映射关系。

③概念合并时原有词汇关系的处理。同一组词汇在不同的知识组织系统中可能会有不同的概念关系,比如在甲系统中是属分关系,而在乙系统中是相关关系。需要建立一定的规则来选择和调整这些概念之间的关系,以形成集成构建的新知识组织系统自身的概念体系,这也是集成构建的领域知识组织系统将来作为独立知识组织工具使用的一个基本要求。

④新关系的发现。集成构建知识组织系统不仅仅是对已有词汇关系的选择和调整,更重要的是通过对语料数据的挖掘,发现跨领域、多来源的术语概念之间的关系,在领域专家的辅助下,完成新的概念语义关系的发现。

⑤融合后的一致性处理。语义融合后要保证新得到知识组织系统内部结构的一致性,避免逻辑错误存在。

img60

图6-3 映射方法分类

图表来源:S.Faro,E.Francesconi,V.Sandrucci.Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-study [C].ITTIG-CNR,Luxembourg,2007.

(3)当用词筛选

如果需要在多知识组织系统集成的基础之上形成面向具体应用的新的领域知识组织系统,那么如何判定筛选当用词、形成当用词表,将是知识组织系统集成构建中不可回避的一个问题。所谓当用词表是指当前正在使用的词汇(当用词)构成的词表。在多来源词表集成过程中,有些词表由于编制年代久远,其收录的一些词语已经被淘汰或被新词取代,那么这些词再收录到词表中既无益于提供标引、检索和术语服务,又会增加词表负担。原来的叙词表选词原则是否适用,是否还是依赖于专家智慧选词,是否需要构建和怎样构建一个自适应的选词模型将是通过集成创建词表应研究的问题。

(4)集成后的领域知识组织系统评价

通过集成构建而成的领域知识组织系统虽然也是语词概念及其关系的集合,但它需要具备三方面的功能:①与原知识组织系统保持兼容性;②作为一个独立的知识组织工具使用;③作为面向具体应用的领域高级知识组织系统构建的基础词表。同时,基于集成构建的领域知识组织系统应具备如下的实践意义:①提高跨系统检索的性能;②扩展知识组织系统的互操作性;③扩展领域知识组织系统的覆盖领域和学科深度。因此,从集成构建的领域知识组织系统的功能和实践意义来看,对其评价不能完全采用一般叙词表的评价标准,而应面向其具体功能和实践来进行性能评价,设计针对其作为网络环境中的知识组织系统的相应评价指标,详细评价指标内容构建将在第7章论述。

参考文献

[1]李宁,宋文.对于知识组织体系概念以及构建模式的一些思考[J].图书情报工作,2005,49(10):37~40

[2]Lancaster,F.Wilfrid;Smith,Linda C.Compatibility issues affecting information systems and services[C].PGI—33/WS/23,Paris,Unesco General Information Programme,1983

[3]Dachelet R.Multilingual querying and multilingual thesauri in Aquarelle [R].Technical Report,INRIA-Aquarelle,1997

[4]Marcia Lei Zeng,Lois Mai Chan.Trends and issues in establishing interoperability among knowledge organization systems.Journal of the American Society for Information Science and Technology[J].2004,55(5):377~395

[5]王军,张丽.网络知识组织系统的研究现状和发展趋势[J].中国图书馆学报,2008(1):65~69

[6]司莉.知识组织系统的互操作及其实现.现代图书情报技术,2007(3):29~34

[7]朱礼军,赵新力,乔晓东.跨领域多来源主题词表集成与服务研究[J].现代图书情报技术,2007(1):20~24

[8]Doerr,M.Semantic problems of thesaurus mapping[J/OL].Journal of Digital Information,2001,1(8).[2009-08-02]http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Doerr/

[9]W3C.SKOS simple knowledge organization system primer[OL].[2009-8-23]http://www.w3.org/TR/skos-primer/#sectransitivebroader

[10]W3C.SKOS simple knowledge organization system reference[OL].[2009-8-23]http://www.w3.org/TR/skos-reference/#mapping

[11]Hafedh Mili,Roy Rada.Merging thesauri:principles and evaluation [J].IEEE transactions on pattern analysis and machine intelligence,1988,10(2):204~220

[12]Libo Eric Si,Ann O'Brien,Steve Probets.Integration of distributed terminology resources to facilitate subject cross-browsing for library portal systems[C/OL].ISKO UK2009.London,2009,6.[2009-08-23]http://www.iskouk.org/conf2009/papers/si_ISKOUK2009.pdf

[13]S.Faro,E.Francesconi,V.Sandrucci.Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-study[C].ITTIG-CNR,Luxembourg,2007

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈