首页 百科知识 受控词表概况

受控词表概况

时间:2022-02-27 百科知识 版权反馈
【摘要】:受控词表的实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。因此,受控词表可分为分类受控词表和主题受控词表两大语系,语种繁多,当前全世界至少有一两千种受控词表正在图书馆工作、情报工作、档案工作等领域被使用着。
受控词表概况_受控词表的互操作研究

1.1 受控词表概况

受控词表,又称受控语言或标引语言,是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题概念。它作为提供文献内容检索途径的情报检索系统的一个构成因素,在其中起着语言保证作用。

受控词表的实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码,用以对文献内容和情报需要进行主题标引、特征描述或逻辑分类。因此,受控词表可分为分类受控词表和主题受控词表两大语系,语种繁多,当前全世界至少有一两千种受控词表正在图书馆工作、情报工作、档案工作等领域被使用着。

受控词表的基本功能就是知识组织功能,可保证较高的检索效率,基本功能大致可归纳为如下四点1

·对文献的情报内容(或某些外表特征)加以标引的功能;

·对内容相同及相关的情报加以集中或揭示其相关性的功能;

·对大量情报加以系统化或组织化的功能;

·便于将标引用语和检索用语进行相符性比较的功能。

1.1.1 分类法概况

自1876年世界上第一部现代意义上的分类法面世以来,分类法在信息组织管理中一直占据非常重要的位置。在其100多年的发展历史中,分类法发展成了种类繁多的信息组织工具,它广义上可以分为:

·国际通用分类法,例如《杜威十进分类法》(Dewey Decimal Classification,DDC),《美国国会图书馆分类法》(Library of Congress Classification,LCC),《国际十进分类法》(Universal Decimal Classification,UDC)等等。

·国家通用分类法,例如《中国图书馆分类法》(简称《中图法》,缩写CLC),瑞士国家图书分类法(SAB)等等。

·专业图书分类法,例如《美国国家医学图书馆分类法》(National Library of Medicine Classification)等等。

·自立分类体系,例如YAHOO等等。

就DDC而言,目前已经产生了22个版本,基本平均6年就产生一个新的版本。种类繁多,版本不断地更新,足以说明分类法在信息组织管理方面旺盛的生命力。

在我国第一部叙词表产生前,分类法在我国的科技情报界、图书馆界信息资源的组织管理中起着绝对的作用。1917年,由沈祖荣、胡庆生合编的《仿杜威书目十类法》可以说是我国近代真正意义上的文献分类法。在其影响下,民国期间就先后共出现了30多部类似的文献分类法,形成了“仿杜”、“改杜”、“补杜”等流派。我国现代图书分类普遍认为从20世纪50年代开始,先后诞生了《中国人民大学图书馆图书分类法》、《中国科学院图书馆图书分类法》、《中国图书馆图书分类法》、《中国图书资料分类法》、《中国档案分类法》等多部大型分类法2。经过50多年的发展,我国图书分类法目前已经形成以《中图法》为主的局面,全国图书情报部门九成以上的单位都使用它。

传统分类法按照其编制方式可以分为等级列举式、分面组配式、列举组配式三种。等级列举式分类法也称枚举式分类法,是将所有类目组织成一个等级体系,并尽量列举,这种分类法有类目表达的概念较复杂、先组程度高等特点。分面组配分类法不采用详尽列举的方式,而是通过主题概念的范畴划分为不同的组面,每个组面中的概念为单元概念,任何复杂的主题都可以分解成相应的单元概念,也可以通过简单概念(单元概念)组成复杂的类目。列举组配式是一种半分面的分类法。

目前正在使用的分类法一般来说都有专门的权威机构维护更新;分类法具有按学科内容进行浏览的功能,并且具有很好的层次性和系统性;多数分类法都采用符号标记,不受限于专门的语言,可以较好地实现多语种信息检索;分类法应用于浏览时,具有较好的上下文环境,用户可以在明确的语义环境中浏览,利用分类法体系中的类目可以很好地实现信息的扩检和缩检;另外,分类法适应于非文本信息资源的组织管理3。正是这些优点使分类法在图书馆、情报界得到长期的使用,形成了非常广泛的用户基础。

90年代以来,伴随着信息资源网络化、数字化的发展,网络信息资源从数量到内容都有了突破性的增长,呈现出多类型、多媒体、非规范、跨时间、跨地区、跨语种等特征,给用户查询和利用信息带来了很多困难。鉴于分类法在组织信息方面的优点,图书馆界人士开始了用分类法组织网络信息资源的研究。利用分类法进行网络信息资源的管理,进行了多种模式的探索,主要包括以下几种:

(1)传统分类法直接应用于网络资源的管理。如同传统的信息资源一样,图书馆管理员利用分类法直接编目网络信息资源。目前,应用国际通用分类法来组织网络信息资源的试验系统中,应用DDC来组织网络信息资源的就达30多个,如Canadian Information by Subject,Blue Web’n Content Categories,The Internet Resource Subject List in Classification Order等4;用UDC组织的如WWW Subject Tree of WAIS Databases,BUBL,GERHARD等共计逾10个;The WWW Virtual Library,Cardinal Stritch College Library等近20个采用LCC来组织网络信息资源5。依据专业类表建立的专业性网络检索系统比较典型的如:瑞典技术大学图书馆建立的“瑞典工程电子图书馆”(Engineering E-Library,Sweden,EELS)。

(2)对传统分类法进行改造,满足网络资源的自动化标引和检索要求。OCLC(Online Computer Library Center,联机计算机图书馆中心)对于DDC应用于网络信息资源的组织和挖掘作了大量的研究工作,如Scorpion项目,主要研究电子文献的索引和编目,但重点是构架自动主题识别工具的研究;旨在增强DDC主题处理能力的Dewey ETC Trees项目;为增强DDC自然语言处理能力的Wordsmith项目等等。目前在广泛使用DDC的视窗版和WEB版,就是改造传统分类法应用于网络信息资源组织非常成功的实例。

(3)重新编制分类法。传统分类法不适合处理网络信息资源,需要重新编制适应自身需要的分类法。例YAHOO等搜索引擎就采用了自编的分类体系,本质上也可以视为一种分类法。另外,将传统分类法与网络搜索引擎相结合而成的网络分类搜索引擎,吸收了网络搜索引擎的长处,并能改善传统分类法不能反映网络信息新主题,检索途径单一,用户服务面窄等不足6,具有很大的发展前景。

1.1.2 主题法概况

主题法是各种主题受控词表的一个统称,是用自然语言语词或受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,并用参照系统显示概念之间关系的受控词表7

主题法真正发展历史已有100多年。1895年美国图书馆协会根据克特的思想,编制、出版的《字典式目录使用的标题表》,即《美国图协标题表》是世界上第一部大型的标题表,也可视为世界上第一部真正意义上的主题法8。进入20世纪50、60年代,又在标题法的基础上陆续发展出元词法、关键词法和叙词法。我国主题法的研究起步较晚,1964年,我国航空部编印《航空科技资料主题表》,是我国建国后编制的第一部主题词表。1979年,由中国科学技术信息研究所参与组织编制出版的《汉语主题词表》是我国叙词语言发展的重要里程碑,从理论和实践上都为促进我国主题词表的进一步发展起到了极其重要的作用9。之后相继出版了百余部主题词表,几乎覆盖了各专业和文献类型,构成了我国叙词语言体系。

这种完全建立在自然语言基础上的主题法,由于能直接以事物为中心集中文献信息,以直观的语词表达信息检索要求,采用字顺方式组织信息,符合用户在获取信息时的方便性和易用性要求,很好地满足了用户特性检索的需要,因而,一度成为信息组织的主流方法,同分类法一起构成了信息组织与检索的两种主要方法。

主题语言用主题词组织与揭示信息具有直接和直观的特点,而且其标识基本上是独立完整的事物概念,满足人们对特定事物、特定主题检索的需要,因而在网络环境中也得到广泛的应用。主题法在网络信息组织中的使用主要表现为两种方式,一是使用现有词表(叙词表、标题表)组织网络信息。目前,使用现有词表组织网络信息的还不多,主要是《美国国会图书馆标题表》(Library of Congress Subject Headings,LCSH)和《医学主题词表》(Medical Subject Headings,MeSH)被一些网络信息检索系统采用。采用LCSH的系统有:Clinic Web Browse,Alphabetical List of NLM Sections等。二是广泛采用关键词法。由于关键词法具有种种优点,关键词的抽取完全可以自动化,因此关键词检索在网络中的应用相当广泛。目前,大部分搜索引擎的索引数据库几乎都采用关键词法进行信息组织,如Ahavista是关键词搜索引擎的典型代表10

数以千计的分类表、叙词表以及各种自然语言词表纷纷问世,在满足信息组织和信息检索不同需求的同时,也给信息检索,尤其是跨学科、跨数据库、跨语种等检索带来种种困难。而解决此种困难的对策之一,就是研究受控词表的兼容性,建立不同受控词表之间的互操作系统。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈