首页 理论教育 数字信息资源组织的方法

数字信息资源组织的方法

时间:2022-03-10 理论教育 版权反馈
【摘要】:起初分类法在组织数字信息资源方面所扮演的角色并未被看好,但实践作出了肯定的回答。分类法电子版的成功研制,为实现联机系统中数字信息资源组织的目标创造了极为方便的条件。学科信息门户是一种非常重要的数字信息资源组织模式,深受专业用户的青睐。主题法完全建立在自然语言基础上,而且与计算机信息检索技术相适应,是数字信息资源组织的重要方法。在网络环境下,用于组织数字信息资源的主要是关键词法和叙词法。

4.4 数字信息资源组织的方法

实际上,数字信息资源组织的方式是一种模式。它所讨论的是数字信息资源组织的一种标准形式或是在人们组织数字信息资源时可以照着做的标准样式,如以上列举的文件方式、超媒体方式、主题树方式和数据库方式等,就是数字环境下信息资源组织的几种常用的方式,而数字信息资源组织的方法则是研究信息资源组织途径,研究如何揭示信息资源,它是建立信息检索系统的基础。

4.4.1 分类法

分类是人类认识事物、区分事物的基本方法。

在传统图书馆,分类法是揭示、组织文献信息内容的一种有效方法。它主要以科学分类为基础构建的类目体系,即以文献分类法为工具,揭示文献信息,组织文献信息分类系统。在这种分类系统中,信息是按其内容的亲疏远近有序排列的,一般以号码作为文献信息的检索标识,能够将同一学科、同一专业性质的文献信息集中,满足人们从学科、专业角度对文献信息的检索,而且可以达到相当高的检全率;利用这种分类法进行浏览检索时,如果浏览的初始入口选择得比较准确,其检准率也很高。尤其是用来对信息载体的排列,是其他方法所无法实现的。正因为如此,一些著名分类法,如《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆分类法》(LCC)、《中国图书馆分类法》和《中国科学院图书馆图书分类法》等仍被广泛应用于各种类型图书馆。

分类法用于传统的文献信息组织的作用十分明显,当文献信息数字化、网络化以后,分类法还能够发挥其应有的作用吗?起初分类法在组织数字信息资源方面所扮演的角色并未被看好,但实践作出了肯定的回答。在网络环境下,分类法的优势就在于通过建立一个共有的概念性的上下文关系,能够超越不同的信息存储形成一种凝聚力,提供按等级体系的浏览检索方式。

目前,运用分类方法组织数字信息资源主要有以下几种形式:

(1)采用著名文献分类法

在联机系统中,对数字信息资源分类主要是为了:①提高准确度和回应率;②为检索词提供上下文;③使用户能够进行浏览;④作为不同语言间的转换机制(23)。分类法电子版的成功研制,为实现联机系统中数字信息资源组织的目标创造了极为方便的条件。一些大学图书馆、学术性网站和学术性数据库就利用网上已有的DDC、LCC、UDC及《中图法》等作为分类工具,组织数字信息资源,建立网络信息检索系统(见表4-2)。

表4-2 著名分类法用于数字信息资源组织的检索系统实例

img12

这主要是因为电子分类法不仅便于浏览,同时还能实现字顺检索,只要分类法在类名上更加规范化、注释更加充分和详细,按主题或事物名称进行跨类的多途径检索功能就很容易实现,成为分类检索的重要补充,隐含、深细主题的检索就变得比较容易。

学科信息门户是一种非常重要的数字信息资源组织模式,深受专业用户的青睐。它之所以有如此的魅力,不仅在于它有高质量的数字信息资源,而且还在于它运用了文献分类法组织这些资源。一个好的网络资源导航系统必须有一个严格的分类体系(24),所以,到目前为止,许多已建立的大型学科信息门户都通过使用严格的分类体系提供高质量的服务(25)。如英国的BUBL LINK严格按照国际上著名的杜威十进分类法DDC对门户信息进行分类整理,规范搜索网络资源。CSDL项目的5个学科门户,也都按照本学科特色,参照相关的国际标准建立分类体系。如数理科学学科信息门户,物理分类采用《国际物理分类法》,它是由英国INSPEC和德国的Physics Briefs两个国际上比较权威的物理文献数据库所采用的分类体系;资源环境学科信息门户采用RESC和DDC两种分类体系,以满足不同用户的信息需求。

(2)参考文献分类法形式,设计分类导航系统

这是大多数网站、索引擎采用的主要方法。如著名搜索引擎雅虎(Yahoo!)的类目体系就很明显(见图4-2)。

img13

图4-2 雅虎中文类目体系

这种分类法是面向一切网络信息的,它是根据搜索引擎或网站的性质,搜索和收录重点设计分类大纲,即大类或一级类目,将网站上的网页归到相应的类目体系中,类目可以按等级体系的方式浏览。当然,这种等级体系并不是真正意义上的等级体系,各子类之间也并不属同一级类目。因为,网络分类法有一个很重要的特点,就是可以根据用户查询的需要,把信息量大、点击频率高的知识范畴突出列类,而不考虑它在学科分类体系中所处的层次如何。由于在对网站进行分类时形成了一种以等级体系为主、网状联系的知识地图(26),因而浏览时既可以随时扩大或缩小检索范围,同时对于横跨多个学科领域的概念进行检索时,还能帮助用户理解具体的语义环境,获得满意的检索结果。

(3)人工神经网络(ANN)

人工神经网络(ANN)是根据人类的生物神经系统结构设计的计算机系统,其应用范围很广,在信息组织领域,它可以用于自动分类。国外有些信息检索(IR)系统已经采用了使用ANN的自动分类系统(27)。目前分类上应用最广泛的人工神经网络模型叫做自组织映射(Self-Organizing Map,SOM),它是由Kohonen首先提出的一种无导师自组织和自学习网络。利用该网络可以实现Web文档的自动聚类,如果在此基础上更进一步:即利用SOM网络实现索引词聚类,就可以实现超文本链接的自动生成(28)。由此看来,利用人工神经网络进行自动分类前景广阔,在主题及主题间关系可视化显示方面的发展潜力更是不可估量。

4.4.2 主题法

主题法是以自然语言的语词作检索标识,以字顺为主要检索途径,通过参照系统揭示语词之间关系的一种情报检索语言。其主要特点是:以事物为中心集中信息;以直观的语词表达信息内容;以特性检索、明确性检索为主。在信息检索系统中,它是与分类法相对应的、互为补充的两大方法体系。主题法完全建立在自然语言基础上,而且与计算机信息检索技术相适应,是数字信息资源组织的重要方法。

按照表达主题概念的语词标识的构成原理和特征划分,主题法一般分为标题法、单元词法、叙词法和关键词法。在网络环境下,用于组织数字信息资源的主要是关键词法和叙词法。

(1)关键词法

关键词法是直接使用自然语言组织和检索信息的一种方法,其语词直接取自信息体本身,一般不加规范处理或只作极少量的规范处理,比较适用于计算机编制各种索引,便于组织数字信息资源。由于关键词法具有标引简便、成本低廉、易于实现自动标引和更新时滞短等优点,网络环境下的数字化信息组织与检索大量采用了关键词法,使其成为广受欢迎的“大众化”检索语言。

目前,在网络信息组织与检索中,几乎所有的网络信息检索系统都提供关键词检索功能,其中以搜索引擎最为典型。此外,随着全文检索技术的发展,许多以往控制相对严格的联机数据库及OPAC等也增加了关键词检索功能。

①搜索引擎中的关键词法。搜索引擎一般是通过自身软件自动从自然语言编写的网页中搜集关键词,建立关键词索引库,组织关键词检索系统,提供关键词检索途径。一般情况下,搜索引擎的关键词检索分为两块,即简单关键词检索和高级关键词检索,简单关键词检索方法容易操作,但检索效率低;高级关键词检索试图通过加入控制措施来增强关键词检索功能,提高检索效率,但又增加了用户使用的难度。优化搜索引擎中关键词检索的效率,需要引进词汇控制原理,促进自然语言情报语言化。

②联机数据库中的关键词法。联机数据库是网上重要的学术信息源,一般由专门机构或开发商开发,与搜索引擎的关键词法相比,数据库的关键词法具有这样一些特点:第一,关键词均为人工标引,有的数据库甚至是由专业人员标引的,因而质量较高;第二,有些数据库建有关键词表,可供用户浏览和检索使用;第三,分类方法与主题方法结合,先选择相关学科专业,再利用关键词检索,其检索效率较高;第四,使用专业的禁用词表,对关键词规范化程度高;第五,为了提高关键词的检索效率,采用了一些辅助手段和限定条件,尤其是二次检索功能可以大大地缩小检索范围,提高检准率。

(2)叙词法

叙词法是在吸收单元词法、标题法以及分面组配分类法等的优点基础上,伴随现代信息技术的发展而兴起的一种新型的检索语言。它除了具有主题法的共同优点以外,还有这样一些特点:①因采用组配方式,可以实现多途径检索,多因素组配检索,灵活地扩检、缩检或改变检索范围;②能以较少的语词表达较多的概念、较专指的概念、新概念;③因遵循概念组配原理,保证了组配语义的准确性;④因采用多种手段显示词间关系,具有较好的族性检索功能(29)。随着计算机应用的发展,叙词法得到不断改善和普及,已经成为联机、联网时代情报检索语言的主流。

联机叙词表是网络环境下主题法用于数字信息资源的主要形式之一,它所提供的语义结构在组织和检索网络信息资源方面能起到十分重要的作用。Shiri,A认为,大量联机叙词表的兴起与下列问题密切相关(30):①海量信息资源的增长需要更好的主题描述;②传统信息资源的网络化需要更加一致的主题表述方法;③检索未经组织信息所出现的大量问题;④提供诸如叙词表之类知识组织工具,满足用户更快速、易于组织信息的需要。

目前,因特网上有很多联机叙词表提供在线服务,如:

●The Astronomy Thesaurus(语种:英、法、德、西)

(http://msowww.anu.edu.au/library/thesaurus/)

●UNESCO Thesaurus(英、法、西)

(http://www.ulcc.ac.uk/unesco/)

●AGROVOC Thesaurus(FAO)

(http://www.fao.org/agrovocl)

●The Art&Architecture Thesaurus(AAT)

(http://shiva.pub.getty.edu/aat browser/)

●Thesaurus of Parasitology

(http://www.personal.kent.eud/~slis/zeng/template/thesauri/miller/tp.htm)

●ASIS Thesaurus of Information Science

(http://www.asis.ort/publications/Thesaurus/isframe.htm)其应用领域、使用对象、所包含的学科越来越广。表4-3是根据所属学科类型依照DDC(《杜威十进分类法》)的基本大类统计的。

表4-3 联机显示词表分类统计表(31)

img14

因特网上联机显示词表的检索途径有浏览检索和提问检索两种,但大多数还是采用的浏览检索。主题词表浏览的方式一般又包括字顺浏览和等级分层式浏览。

除了因特网上联机叙词表以外,还有很多联机全文检索数据库中也内置有配套的受控词表系统,如美国教育资源信息数据库中使用的《ERIC主题词表》、英国国家数字档案馆使用的《UNESCO叙词表》、STI数据库中使用的《NASA主题词表》和UMI数据库中的《ProQuest受控主题词表》等(32)。随着图像、视频、音频等各种非文本信息的增多,相应地建立起各类多媒体数据库,为了提高其标引质量和检索效率,一些国家已经开始实施一些项目来将叙词表引入对视觉化数字信息的标引过程,如具有代表性的《NASA图像集合视觉叙词表》。

同时,叙词表在学科信息门户中也得到充分重视,国外一些有代表性的学科信息门户,使用叙词表进行网页和网站的标引和检索。如艺术、设计、建筑和媒体信息门户使用了《艺术和建筑叙词表》,瑞典工程电子图书馆信息门户使用了《工程信息Ei叙词表》,生命与健康信息门户使用了《MeSH叙词表》,社会科学信息门户使用了《HASSET叙词表》等。

4.4.3 Ontology(本体)

(1)Ontology(本体)的含义、特征

Ontology的概念源于哲学,即对世界上客观存在物的系统描述,一般译作本体论。在人工智能领域,Neches等将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”(33)。其他领域的学者给出了不同的定义,其中,最著名、被引用最为广泛的定义由Gruber提出:“本体是概念模型的明确的规范说明”。后来有许多研究人员从不同的问题域和研究角度出发,对于本体给出了不同的定义。Studer等在对本体进行了深入研究之后,给出了一个被广为接受的定义,提出“本体是共享概念模型的形式化规范说明”(34)。这个定义有4层含义:“概念化”(Conceptualization)指识别反映某些现象的相关概念的抽象模型;“明确”(Explicit)指所使用的概念及它们之间的联系都被明确定义;“形式化”(Formal)指本体是计算机可读的;“共享”(Share)指本体中反映的知识是其使用者共同认同的。

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇和术语,从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义,应用本体可以很好地对于信息语义关系进行分析。胡亚军、刘鲁红认为,本体作为一种能在语义层次上描述知识的概念模型,具有良好的概念层次结构和对逻辑推理的支持能力(35)。赵焕洲、唐爱民在对本体的特征进行分析后指出,作为一种能在概念语义和知识层次上描述信息系统的概念模型工具,本体是进行信息资源管理的基础(36)

(2)本体在信息组织的应用

从某种意义来讲,本体同叙词表一样是一种控制词表,是一种知识组织工具。虽然,本体和叙词表同是知识组织工具,但在形式化水平、概念抽象、语义关系表达等方面存在着明显差异(37),本体的结构特性,使其在理论上具有超越叙词表性能的可能性,并为它在一个更广阔的范围内获得有效应用奠定了基础。

事实上,本体的应用范围远比叙词表来得广泛,而信息组织与检索只不过是它的一个适宜应用的领域而已。基于本体的理论,张英朝等从实现虚拟组织信息共享出发,在深入研究了如何构建虚拟组织信息集成全局视图与本地视图之间的映射关系的基础上,提出了一种基于本体的两阶段视图映射关系构建方法(38)。以使得所构建的视图映射关系既能保证较高的信息查询效率,又能保证具有良好的可扩展性。

数字图书馆是本体的重要应用领域。一个应用了本体和元数据的数字图书馆系统,其信息资源的组织在微观层面都是依据各种规范的元数据方案,信息资源之间的宏观联系是依据本体所形式化的联系模型。本体在其中可以发挥重要作用之处主要包括处理信息组织、信息检索和异构信息系统的互操作(39)刘佳在分析基于知识的数字图书馆构成的基础上,提出了将本体运用于其中的设想。同时认为数字图书馆作为相对独立的信息系统,本体可以通过机读元数据自动建立书目数据库;通过语义对网页和文件进行自动标引和注释;通过语义聚类将信息资源中的相关主题进行分类,从而实现数字图书馆的定题服务;也可以对网络站点进行分类和导航,丰富数字图书馆的资源链接(40)

就知识组织而言,本体具有广阔的发展前景,与叙词表相比,其优越性更加明显。至少理论上如此。但作为一种功能比较完善的知识组织工具,本体的构造和实现是比较复杂和困难的,这就大大制约了本体的发展和应用。目前,国内外的学者、专家正在积极研究如何基于叙词表来构建本体的问题。

4.4.4 主题图法

主题图是一种新型的数字化信息组织方法,使用这个方法可以提供最佳的信息资源导航。在XML Topic Map(XTM)1.0规范中,主题图被定义为一系列以主题、联系和范围组成的主题图节点,这些节点以符合XTM或者其他规范的文件形式、或者以满足XTM加工需求的内部应用的方式存在。简言之,主题图是一种用于描述信息资源的知识结构的数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互关系(41)

实际上,主题图是利用了主题索引的概念及网站的特点,将主题、联系和范围三者紧密结合起来,用格式表单来控制信息的获取和浏览,并详细描述各种浏览层次,实现对复杂知识管理关系的模拟,以便帮助用户更有效地浏览数字信息资源。由于主题图吸收了各种知识组织方法的长处,并采纳了Ontology和语义网的部分思想,它能对数字环境下的信息资源进行有效的组织与管理;主题图可通过提供一定基于主题属性的控制机制来解决同名异义、同义异名的语义问题,使其具有语义描述功能。此外,主题图具有良好的信息检索功能,具体表现在:①可支持现有的搜索引擎在资源域层面实现检索;②主题图概念可看成一个图或树,支持可视化图形方式的人机交互式检索;③主题图可看成本体(Ontology),它可以提供一定程度的概念间关系描述,利用概念间的关系,提供一定程度的智能化检索。(42)

信息管理领域,主题图运用十分广泛,如在叙词表的编制和应用方面、网络教学的教育信息资源组织与导航方面、在电子商务方面、在门户网站、科研助理和知识交流共享等方面都有较好的应用价值(43)。可以预示,随着信息技术的不断发展,主题图方法将在数字化信息资源组织和知识表示方面发挥更大的作用。

【注释】

(1)陈庄等.信息资源组织与管理[M].北京:清华大学出版社,2005

(2)林海清.数字图书馆的信息组织[J].中国图书馆学报,2000(1):70-75

(3)胡昌平,王翠萍.基于个性化服务的信息资源组织目标、原则与规范[J].图书馆论坛,2004(6):137-141

(4)娄策群等.信息管理学基础[M].北京:科学出版社,2005

(5)[美]Arlene G.Taylor著,张素芳等译.信息组织[M].北京:机械工业出版社,2006

(6)陈如好.关于数字信息资源组织的标准化问题研究[J].图书馆,2002(4)

(7)宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004

(8)何斌,张立厚.信息管理原理与方法[M].北京:清华大学出版社,2006

(9)孙更新.文献信息编目[M].武汉:武汉大学出版社,2006

(10)张秀兰.从AACR1到RDA——《英美编目条例》的修订发展历程[J].图书馆建设,2006(2)

(11)孙更新.文献信息编目[M].武汉:武汉大学出版社,2006

(12)[美]Arlene G.Taylor著,张素芳等译.信息组织[M].北京:机械工业出版社,2006

(13)[美]Arlene G.Taylor著,张素芳等译.信息组织[M].北京:机械工业出版社,2006

(14)谢晓专.网络信息资源组织模式研究[J].图书情报工作,2006(1)

(15)谢晓专.网络信息资源组织模式研究[J].图书情报工作,2006(1)

(16)王云娣.数字信息资源的开发与利用研究[M].武汉:武汉大学出版社,2005

(17)毕强等.超文本信息组织技术[M].北京:科学技术文献出版社,2004

(18)张燕飞.信息组织的主题语言[M].武汉:武汉大学出版社,2005

(19)明均仁.网络信息组织优化研究[J].情报探索,2006(1)

(20)崔瑞琴,孟连生.数字信息资源整合问题研究[J].图书情报工作,2007(7)

(21)吕慧萍等.中国学科信息门户网站建设的现状与问题探讨[J].现代情报,2006(9)

(22)魏瑞敏.我国的CSDL学科信息门户评析.情报探索,2007(1)

(23)刘嘉.网络信息资源的组织[M].北京:北京图书馆出版社,2002

(24)吕慧萍等.中国学科信息门户网站建设的现状与问题探讨[J].现代情报,2006(9)

(25)张芮,张娴.国外学科信息门户发展现状分析[J].图书情报工作,2006(2)

(26)俞君立,陈树年.文献分类学[M].武汉:武汉大学出版社,2001

(27)[美]Arlene G.Taylor著,张素芳等译.信息组织[M].北京:机械工业出版社,2006

(28)刘高勇,汪会玲.基于SOM的超文本自动生成算法[J].情报科学,2007(6)

(29)戴维民.信息组织[M].北京:高等教育出版社,2004

(30)Shiri,A.A,Revie,C.Thesauri on the web:current developments and trends[J].Online Information Review.2000,24(4)

(31)张燕飞.信息组织的主题语言[M].武汉:武汉大学出版社,2005

(32)吴广印,胡亚莉.基于Internet的后控制全文检索系统的研究与综述[J].图书情报工作,2001(6)

(33)宋炜,张铭.语义网简明教程[M].北京:高等教育出版社,2004

(34)Studer R,Benjam ins V R,Fensel D.Knowledge engineering,princip les and methods[J].Data and Engineering,1998,25:1-2

(35)胡亚军,刘鲁红.知识组织的几种主要方法[J].中国信息导报,2005(12)

(36)赵焕洲,唐爱民.对两种知识组织系统——叙词表与Ontology的比较研究[J].情报理论与实践,2005(5)

(37)赵丹群.信息检索中叙词表与Ontology的比较研究[J].情报理论与实践,2006(6)

(38)张英朝等.基于本体的虚拟组织信息集成视图映射关系构建方法研究[J].小型微型计算机系统,2006(3)

(39)乔燕鸿.国内图书馆学情报学领域关于Ontology研究的综述[J].现代情报,2006(9)

(40)刘佳.Ontology在基于知识的数字图书馆中的应用[J].情报资料工作,2006(3)

(41)艾丹祥,张玉峰.利用主题图建立概念知识库[J].图书情报知识,2003(2)

(42)吴江等.基于TMS的信息资源分类与检索方法研究[J].计算机应用软件,2005(9)

(43)马建霞.主题图技术在数字化知识组织中的应用[J].现代图书情报技术,2004(7)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈