首页 百科知识 常用知识组织系统类型

常用知识组织系统类型

时间:2022-02-27 百科知识 版权反馈
【摘要】:知识组织系统是任何信息组织体系的核心构件[13]。近年,随着信息组织从文献组织上升到知识组织的层面,对主题概念及概念之间语义关系的揭示更加深入,语义网络、本体、概念图、主题图等结构化程度更高的知识组织工具应运而生,并日渐成为研究的热点。这些知识组织系统在信息组织领域各有用武之地、不可或缺。下文将选取其中几种常用的知识组织系统做简单介绍。这是可选词单在网站信息构建中的典型应用。
常用知识组织系统类型_网络环境中知识组织系统构建与应用研究

1.2 常用知识组织系统类型

知识组织系统是一定领域内对象、概念及其关系的结构化集合,是对各层次的信息资源按照知识结构进行描述、连接和组织,使人们不再仅依赖信息资源的简单特征,而是根据自己的知识需要与一定的知识体系,来发现、确认、检索和组合相关的信息内容,从而方便地构成新的应用知识。知识组织系统是任何信息组织体系的核心构件[13]

文献分类法与叙词表是传统图书馆环境中最主要的两种文献组织工具,在印刷时代、联机时代的文献组织中做出了卓越的贡献。近年,随着信息组织从文献组织上升到知识组织的层面,对主题概念及概念之间语义关系的揭示更加深入,语义网络、本体、概念图、主题图等结构化程度更高的知识组织工具应运而生,并日渐成为研究的热点

这些知识组织系统在信息组织领域各有用武之地、不可或缺。下文将选取其中几种常用的知识组织系统做简单介绍。

1.2.1 词汇列表

(1)可选词单

所谓可选词单,是指按照某种顺序排列的有限词汇的集合。词单中的词按照年代、字顺、大小或者其他的逻辑顺序排列。一个词单中的成员词都属于同一集合,例如都是国家名称或产品名称或事物名称,在意义上没有重复,在专指程度上也是一致的。可选词单将一个资源集或者概念集根据不同的角度,分门别类地划分为若干个易于检索和理解的子集,每一个门类为成员词的词义提供了上下文环境,从而避免了语词歧义的问题,是一种简单有效的词义消歧的方法[14]

比如,“黄山”这个词,可以指中国名山“黄山”,也可以指安徽省的一个城市“黄山市”,还可以指中国香烟的一个品牌“黄山”,这中间就存在歧义,所说的“黄山”一词到底指示何义?但如果是把“黄山”这个词放在一个可选词单中,利用词单所属的类别为其提供一个上下文语境,从而将其定义明确化而区别开来,见图1-3。

img3

图1-3 可选词单示例———黄山

在网络信息导航中有一种导航形式———基于表单元素的导航,其中表单元素就是一种可选词单;此外,在一些购物网站的信息检索中,会通过一些表单列举商品的各种属性及对应的属性值来提供分面检索,每一个属性对应的属性值就是一个可选词单。这是可选词单在网站信息构建中的典型应用。

(2)地名辞典

地名辞典是含有名称和类型划分的有关地点的地理参考字典。辞典中地名词之间的相互关系通过地理表达方式和明确的关系类型(例如,“属于XXX的一部分”)来表示。目前对于地名辞典的研究,已不仅仅局限于词汇层面上,而是把地名词汇与地图数据结合,通过地名词直接定位到相应的地图上。如美国亚历山大数字图书馆电子地名辞典、台湾“中央研究院”的台湾地名辞典(见图1-4)。

img4

图1-4 地名辞典示例———台湾地名辞典

图表来源:http://gis210.sinica.edu.tw/placename/.

(3)术语表和字典/词典

术语表是术语及其定义的列表。术语可来源于特定领域或特定作品,这些术语在某一特定环境中被定义,而且很少有多种不同的含义。

字典/词典是以字顺排列的字或词以及它们的定义的列表,包括字或词的各种不同含义。字典/词典的范围要比术语表宽泛和通用。字典/词典还可以提供字或词的起源信息,如拼写或词法,以及跨学科的多种含义;有的字典或词典还可能提供不同含义的同义词、相关词,但它没有明确的等级层次体系,也没有试图通过概念来将字词加以分组,如《现代汉语词典》等。

(4)规范文档

规范文档亦称权威档,是用来控制同一实体(人或事物)不同的名称,或者某个特定领域中专有名词的词汇表,例如国家名称表、个人姓名表、组织结构名称列表。非规范的词汇被链接指向规范词汇。这种类型的知识组织系统并不揭示复杂的结构和组织关系,一般只揭示等同关系。如台湾“中央研究院”组织制作的人名权威档、地名权威档、时代权威档等,在其人名权威档中检索“徐光启”,在“徐光启”这一条目下,以“徐光启”作为规范名,并列有其字、号,如“子先”、“徐玄扈”、“玄扈先生”、“徐文定公”等,通过这些词汇的检索能指向“徐光启”这一条目。

(5)同义词环

同义词环是一组同义、近义甚至相关词的集合,类似于入口词表,但是它不会强行要求环中某一个词作为“正式词”,环中任何一个词的地位都是平等的,都可以是正式词。同义词环通常与索引擎一起使用,以帮助扩充检索式,用户只要使用同义词环中的任何一个词,就可以找到这一类的资源。图1-5是利用Google的同义扩展功能搜索“car”,返回结果中除了包含出现检索词“car”的信息外,还包含了大量未出现“car”但出现“BMW”、“汽车”、“Auto”、“Motor”等词语的信息,实际上Google搜索的后台中就利用了同义词环来支撑其同义扩检功能。

img5

图1-5 同义词环应用示例———Google同义扩展检索

同义词环可以根据检索环境和网站内容的变化随时增加,逐步建立,因此,它的构建投资小、效益高、实用性强,非常适合用作搜索引擎的扩检入口词表。

同义词环和规范档是比较简单的知识组织系统,仅仅对术语概念的同义关系进行控制,但是它们可用作自然语言和结构化的受控语言之间的桥梁。

1.2.2 分类聚类体系

(1)标题表

标题表提供一系列用以表达一个馆藏中各文献主题的受控词汇,以及一套将标题组配成复合标题的规则,因其最初收词来源主要为文献标题,故名标题表。它可以扩展到覆盖一个大范围的主题,然而它的列表结构一般非常简单,只有一个有限的等级结构,层次关系比较浅,且为先组式,不够灵活,往往为特定馆藏而构建。如美国国会标题表(Library of Congress Subject Headings,简称LCSH)、美国医学图书馆标题表(Medical Subject Headings,简称MeSH)等。

(2)粗略分类体系

一个用来大致分组归类的分类体系,结构十分松散,可以是任何分组归类用的大纲。比如,一些门户网站上的频道栏和分类目录。

(3)知识分类表

根据事物的某种特征将事物分成有序的类别,例如生物分类学的严格分类体系就是根据生物种群之间的异同程度来阐明生物物种之间亲缘关系的,按门、纲、目、科、属、种来排列。

(4)文献分类法

提供详细的层级知识分类体系,将各种对象或概念划分到该体系的各层次类别中。文献分类法一般使用字母或数字来标记分类类别,以学科分类为主,如《杜威十进分类法》(Dewey Decimal Classification,简称DDC)、《国际十进分类法》(Universal Decimal Classification,简称UDC)、《美国国会图书馆分类法》(Library of Congress Classification,简称LCC)、《中国图书馆分类法》(简称《中图法》)、《农业专业分类表》等。

(5)大众分类法

大众分类法是一种产生于2005年、面向web2.0应用的新型知识组织工具,它基于用户参与生成,因此也称为“自由分类法”、“民间分类法”、“分众分类法”等。它的编制和使用突破了传统分类法和主题法的思路,根据用户对信息资源的标注(Tagging)来生成标签(Tag)和标签云图(Tag Cloud),达到揭示信息内容、反映用户兴趣和关注程度的目的。

大众分类法与结构严谨的文献分类法、规范复杂的叙词表以及作为网站分类目录粗略分类体系都不同。它强调的是一种“自下而上的”、“社会性的”、“用户共同创造的”、“自由的”分类。大众分类法完全由用户构建的,体现了用户的智慧和习惯,真正实现了信息组织以用户为中心的思想,这也正是第二代互联网的核心所在。

大众分类法虽然名为“分类法”,但实际上它是以Tag来立类,将同一Tag标注的内容聚合在一起,只能说是一种无层次的“聚类”。准确说,它应该是一种关键词主题语言在网络信息组织中的应用,它直接使用用户语词来表示信息内容而非代码标识;它不对类目标识———Tag进行任何词汇控制,词义含糊,一义多词、一词多义现象普遍存在;它也不按照某种预先设定的知识框架来组织,由系统自动根据Tag的标注频次来统计。因此,大众分类法是一种自然语言在网络信息组织中的应用,其基于用户参与的思想反映了web2.0环境中信息组织的一种趋向,也是知识组织系统的一种发展趋向。

大众标注的这种信息标引思想,不同于传统的受控主题标引,是一种自由标引,它具有自由、灵活、方便、低成本、词汇更新快等多种优点,当然也带来检索效率低下、缺乏关联,难以系统检索等缺点。因此,有一些研究陆续展开,如对Tag进行聚类分析,发现Tag的同义关系,来提高信息检索的效率[15];通过引入受控词表、本体来规范化Tag[16];通过对Tag标注资源的挖掘来发现Tag之间的语义关系[17]等。当然,如果对于大众分类规范和控制发展到一定程度,那么就不能再称之为“自由的”知识组织工具,而是成了概念图或主题图。

1.2.3 关系词群

(1)叙词表

叙词表亦称主题词表,表达概念及其等同、等级、相关关系的词汇集,是将文献、标引人员、用户的自然语言转化为规范语言的一种词汇控制工具。叙词表揭示了词汇之间的3种最主要的概念关系:

等同关系:又称同一关系、用代关系,包含同义、近义以及用代关系,揭示等同关系有利于增加检索入口。

等级关系:又称属分关系,这种关系包含属种、整部和多层级关系,每种层级关系的下位词都必须与上位词的概念类型相同,即两者必须属于同一范畴内的事物、行为或性质,揭示等级关系有助于扩大和缩小查找范围,提高族性检索能力。

相关关系:又称类缘关系。相关关系揭示叙词间各种主要关系,是扩大检索范围、查找相关信息的重要手段。相关关系范围广、种类多、灵活性大,很难严格界定。

叙词表形成于20世纪50年代末,是在吸收元词法、标题法以及分面组配式分类法等知识组织方法优点的基础上发展起来的。1959年美国杜邦公司编制了第一部叙词表,其后迅速发展,到目前为止,国外叙词表超过2 000种,我国叙词表已超过130种[18]。20世纪60年代以来,叙词表在我国文献信息机构得到了广泛的应用,尤其是20世纪70、80年代至今20世纪90年底初,我国掀起了叙词表编制热潮,形成了《汉语主题词表》(简称《汉表》)、《中国分类主题词表》(简称《中分表》)、《农业科学叙词表》等一系列综合性和专业性汉语叙词表。

(2)概念图

概念图是一种显示概念、事项、示例、问题、主题及其相互关系的图示系统,是将某一领域内的对象或概念,按其内在关联建立起来的一种可视化语义网络。概念图包括节点、连线、连接词。节点表示概念;连接各节点的连线表示两个概念之间存在某种关系,连线可以是单向或双向的;连接词是连线上的文字,是节点之间关系的文字描述。图1-6是“人口迁移原因”的概念图,它比文字更清晰、更直观、更形象地分析、揭示了人口迁移的原因。通常情况下,概念图多用于直观教学和概念的可视化描述中,而概念图的构建过程就是一个知识表示与知识组织的过程。

img6

图1-6 概念地图示例———人口迁移原因

图表来源:李万龙工作室.举例说明人口迁移的主要原因(概念图)[EB/OL].[2006-01-22].http://dili.wjstar.net/blog/UploadFile/2006-2/225837975.gif.

(3)主题图

主题图是多种技术融合而出现的一种新型知识组织技术和方式,由一种知识化的语义工具,一种信息资源元数据、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术组成[19]。主题图主要由主题(Topic)、关联(Association)和资源实体(Occurrences)组成,即基于TAO模型的主题图,它是知识组织语义工具与资源实体的整合。它实际上是在信息资源的上层构建一个结构化的语义网,描述主题之间以及主题与具体信息资源之间的联系,建立资源间的交叉参照[20]。如图1-7所示关于“普契尼”的一个主题图,上层为知识层,展示“普契尼”(作曲家)、“卢卡”(城市名)、“托斯卡”(作品)和“蝴蝶夫人”(作品)等主题以及主题之间的关联,如“出生于”(出生地)、“由……创作”(剧作者和歌剧之间的关系);下层为资源层,分别对应于知识层的主题,有一对一、一对多、多对多的关系。

img7

图1-7 主题图的TAO模型

图表来源:Pepper Steve.Topic maps[OL].(2008-11-15)[2009-08-16].http://www.ontopedia.net/pepper/papers/ELIS-TopicMaps.pdf.

此外,每个主题都从属于一个或多个特定的主题类型,譬如“普契尼”除了从属于“作曲家”这个主题类型外,还可以从属于“人”、“学生”、“丈夫”等其他多个主题类型,根据其从属的主题类型不同,其与其他主题之间的关联也不尽相同。比如“普契尼”(作曲家)与“托斯卡”(作品)之间是“由……创作”的关系,而“普契尼”(人)与“卢卡”(地名)之间是“出生于”的关系。再如“南京”(地理名称)与“江苏”(地理名称)之间是“位于”(位置关系),而“南京”(行政区划)与“江苏”(行政区划)之间是“是……的省会”(行政职能关系)[21]

由此可知,主题图不仅仅是一种知识组织的工具,还是一种知识组织的方式,它不仅吸收了传统知识组织方法的思想,如术语表、叙词表、索引等,并有所发展,以满足数字信息组织的复杂性要求[22]。与概念图相比,主题图不仅揭示了概念之间的关联,还展示了信息资源的知识结构。

(4)语义网络

语义网络不同于当前的语义网(semantic web),它是为了建立概念术语之间错综复杂的关系而设计的一种语义工具,是一种按照关系网络中节点的模式构造的概念集。这种类型的知识组织系统,将概念组织成网络,而不再是简单的树状层级关系。概念相当于网络中的节点,而节点间的枝节联系就是概念之间的关系。这些关系已经超越了一般的上下位层级关系、相关关系,包括更加专指的整体—部分关系、因果关系、父子关系等语义关系。著名的语义网络有普林斯顿大学的WordNet,董振东、董强父子构建的知网HowNet。语义网在机器翻译、人工智能领域有较为广泛的应用。

(5)本体

本体也称为知识本体、实用分类系统,是最新的知识组织系统类型,本体是共享概念模型的明确的、形式化规范说明,可以用来表示概念间复杂的关系,其中包括语义网络所不能表示的规则和推理。本体是等级体系结构与元数据式的“特征”描述的结合,在对知识进行分门别类的划分后,对每一类甚至每一个类的成员进行一系列定义,比如特性、限制条件、推理规则等,而这一切都必须用机器可读的语言来描述。本体一般描述某一具体领域的知识,通常与知识挖掘、知识管理相关联。本体因其对概念及其语义关系揭示的明确化、模型化、机器可读等优点而成为第二代互联网———语义网环境中不可或缺的组织工具,受到了知识工程、信息管理、机器翻译、人工智能等各个领域的关注。

所有这些类型的知识组织系统在复杂性、结构和功能上存在差异,但在信息资源的描述、组织、存取、检索、开发利用中都有着不可或缺的作用。不管知识组织系统的来源、类型存在什么差异,每个知识组织系统都有一个明确的目标:描述信息、组织信息、提高信息检索的效率。在实际应用中,往往会多个知识组织工具同时应用,互为补充。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈