首页 理论教育 医学文献信息资源组织的方法

医学文献信息资源组织的方法

时间:2022-04-12 理论教育 版权反馈
【摘要】:信息资源组织有两种基本的方式:一是针对信息的内容特征进行组织,这种方式主要采用两类基本的方法,即分类法和主题法;二是依据信息的形式特征进行组织,具体是依据信息的题名、责任者、载体形式等特征实现信息的有序化,主要表现为对文献信息形式特征的著录和著录款目的组织,这种方式称为信息描述,通常简称为编目。因此,以分类的方式组织信息资源,最重要的作用是组织文献排架。信息资源分类实际上是聚类和归类的过程。

信息资源组织有两种基本的方式:一是针对信息的内容特征进行组织,这种方式主要采用两类基本的方法,即分类法和主题法;二是依据信息的形式特征进行组织,具体是依据信息的题名、责任者、载体形式等特征实现信息的有序化,主要表现为对文献信息形式特征的著录和著录款目(书目记录)的组织,这种方式称为信息描述,通常简称为编目。

(一)揭示信息内容特征的分类法

1.信息资源分类与分类法 分类是指依据事物的本质属性或其他显著特征进行区分和类聚,并将区分的结果按照一定的次序组织起来的活动。

信息资源分类就是将分类的方法和思想应用于信息组织领域,根据信息资源的内容特征和其他特征,将资源分门别类地、系统地组织和揭示的方法,其结果是把相同的信息集合到一起,把不同的信息区别开来。因此,以分类的方式组织信息资源,最重要的作用是组织文献排架。通过分类,内容相同的文献集中在一起,内容相近的文献联系在一起,内容不同的文献区别开来。这不仅有利于读者按照学科系统利用文献;工作人员也能方便地按类统计文献情况,了解与分析读者的信息需求,促进文献资源更有针对性地建设和发展。信息资源分类的另一个重要作用是形成分类检索工具,方便读者从学科知识系统出发,按类检索文献。

信息资源分类实际上是聚类和归类的过程。首先是聚类,按照信息资源的特点和使用需要,通过区分和类集建立起类目体系;然后是归类,依据所建立的分类体系对信息资源进行组织。一般是根据信息资源的特点,将其分门别类地归入该系统的相应类目,实现对信息资源的分类组织。其中,建立科学合理的类目体系是进行分类组织的重要条件。要准确、一致、有效地组织和揭示信息资源,必须有一个依据和工具,这个工具就是归类时必须遵循的类目体系,亦即信息资源分类法。所谓信息资源分类法,也称为文献分类法,分类语言,是按照类目之间关系组织起来的,并配有一定的标记符号用来类分信息资源的工具。

2.分类法的类型 信息资源分类法按照编制方式,通常可以分为等级列举式、分面组配式、列举-组配式三种类型。

(1)等级列举式分类法:这是一种以学科分类为基础,依据概念的划分与概括的原理,把概括文献内容与事物的各种类目组织为一个层层隶属、详细列举的等级结构体系的一种分类法,也称列举式分类法、枚举式分类法。这种分类法通常是依据传统的知识分类体系编制的,也称体系分类法。其优点是分类结构显示直观,便于“对号入座”,特别适合于组织文献分类排架和组织分类检索工具。但是,其缺点也非常明显,难以揭示细小而专深的主题和交叉主题,对涌现的新学科新主题显得爱莫能助。等级列举式分类法通常体积庞大,维护也不容易。著名的列举式分类法有:美国《杜威十进分类法》(DDC)、《美国国会图书馆分类法》(LCC)、《中国图书馆分类法》(简称为《中图法》)、《中国科学院图书馆分类法》(简称《科图法》)等。我国大多数图书馆采用的是《中图法》。

(2)分面组配式分类法:依据概念的分析与综合原理,将概括文献内容与事物主题的概念组成“分面-亚面-类目”的结构体系,通过各分面类目之间的组配来表达文献主题的一种文献分类方法。其原理是:不管多么复杂的主题,都可以分解为相应的基本概念,并通过相应基本概念的组合来表达。这种分类法在编制时在类表中按照范畴列出各种基本概念,并分别配以相应的号码,使用时,先分析标引对象的主题,根据主题分析的结果,通过相应概念类目的组配表达文献主题,以这些类目标识的组合,标识该主题在分类体系中的次序。

分面组配式分类法克服了等级列举式分类法标引专指度不高、科学发展适应性不强、体积大不易维护的缺点,但是其不足也是显而易见的。分面类表的类目体系不够直观,对操作人员要求很高,操作性不强,而且其号码冗长不适于组织排架。具有代表性的分面组配式分类法有《冒号分类法》(CC)。

(3)列举-组配式分类法:这是一种集列举式和分面组配式的特点于一身的分类法,在详细列类的基础上,广泛采用各种组配方式,亦称为体系-组配式分类法,半分面分类法。《国际十进分类法》就是列举一组配分类法的代表。

(二)揭示信息内容特征的主题法

1.主题法的概念 所谓主题法,亦称主题语言,是直接以自然语言表达主题概念,按照语词字顺排列主题概念,并用参照注释显示概念间关系。主题法直接以自然语言中的语词作为检索标识,比采用号码系统的分类法直观性强;以字顺作为主要检索途径,便于直接查找;以特定的事物、问题、现象为中心集中信息资源,通过参照系统揭示主题之间的关系。当然,以事物为中心的直接性是主题法的主要特点。

2.主题法的类型 依照构成原理,主题法可分为标题法、元词法、叙词法和关键词法。

(1)标题法:又称作标题语言,是一种以标题词作为主题标识,以词表预先确定的组配方式来表达主题概念的方法。用来表达主题概念的词或词组是经过规范化处理的,主要通过参照方式表达概念间关系,通常是比较定型的事物名称。标题法的特点是:形式直观、含义明确、操作简便。不足是:列举的方式造成词表体积庞大,概念专指度不高,且维护困难;定组式标题致使概念难以多向成族,不能从多个因素、多个角度检索,灵活性差。

(2)元词法:也称元词语言或单元词法,是为克服标题法的缺点而产生的,以元词作为主题标识,通过字面组配来表达主题概念。元词是最基本的、字面不能再分解的语词。元词法的特点:词表体积小、标引专指度高、便于从不同主题词角度检索。其不足是:直接性差;采用字面组配,在字面分解与语义分解不一致时,容易产生误差;概念显示不充分,无法进行相关性检索。

(3)叙词法:也称主题词法或叙词语言,以经过规范化处理的语词作为标识,通过概念的组配表达信息资源主题的一种主题法。叙词是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。叙词法的特点:词表结构完备,词汇控制严格,可根据检索系统需要处理词汇;组配准确,标引能力强;组配方式灵活,便于多途径、多因素检索,检索效率高。不足之处在于:词表编制和管理要求高;标引难度大。医学图书馆常用的《汉语主题词表》和《医学主题词表》都是属于叙词法的类型。

(4)关键词法:亦称关键词语言,为适应索引编制自动化需要而产生的,直接以自然语言中未经控制或只作少量控制的语词表达主题概念,通过关键词轮排等方式揭示文献主题。关键词法的特点:标引专指度高,适宜于计算机自动标引。不足是因为词汇未严格控制,检索效率低。

(三)反映信息形式特征的信息资源描述

信息资源描述,亦称信息描述,是指根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。在传统文献检索系统的编制中,信息描述又称为文献著录或书目著录,是信息资源组织的重要内容。

信息资源描述的结果,是描述记录亦即元数据,可以作为信息资源实物的代表用来组织检索系统。同时,信息描述的目的,就是以元数据为中介,对信息资源进行各种操作。其作用表现在:确认并对信息资源进行描述,使用户能识别;提供信息资源位置的信息,供用户访问时使用;在描述数据中提供检索点,方便用户对资源检索的利用;通过记录信息资源的各种特征,供用户对信息资源的使用价值进行判断,决定是否选择该资源。

1.信息资源描述的规范与标准 信息资源描述通常需要根据系统的要求,确定描述的成分和特征,并按一定的次序和形式进行著录。为了一致、有效、准确地描述信息资源,同时也便于不同国家、地区之间的信息机构进行信息交流与共享,信息描述需要依据一定的规范和标准。在长期的工作实践中,不同国家、不同领域的信息工作者根据信息资源的特点和检索的需要,进行了许多研究、探索和实践,制订了一系列的信息资源描述规范和标准。

文献著录标准是随着计算机技术在文献管理领域的应用而逐步发展起来的,形成于20世纪70年代。目前,影响最大、使用最广泛的主要是《国际标准书目著录》(ISBD)和《英美编目条例第2版》(AACR2)。

(1)《国际标准书目著录》:ISBD(International Standard Bibliographic Description),是国际图联(IFLA)根据1969年国际编目专家会议的建议而制订的一套供各类信息资源著录使用的国际标准。1971年至今,先后推出了一系列以专著、连续出版物、测绘资料、古籍、非书资料、乐谱、计算机文档等为对象的书目著录国际标准。这些标准使各国书目具有可交换性、并易于识别,便于使传统的手工记录转换为机读形式,从而有效地进行了国际书目交流和实现资源共享。

ISBD明确规定了著录的八大项目,即:题名与责任说明项、版本项、资料特殊细节项、出版发行项、载体形态项、丛编项、附注项、国际文献标准编号与获得方式项,并固定了它们的著录顺序。此外,还首创了供各著录项目和著录单元使用的著录标识符。

(2)《英美编目条例第2版》:AACR2(Anglo-American Cataloging Rules:2),1978年在第一版的基础上修订后出版。AACR在选取标目时首先考虑著作者的责任,然后才是文献的类型,另外还增加了许多新型文献的著录规则。AACR2出版之后,美国国会图书馆也根据新版的ISBD不断进行修订,先后于1988年、1998年出版过修订本。AACR2实质上是一部英文文献编目规则,世界各国直接或者间接采用此标准进行英文文献的编目。我国就是根据AACR2和相关国际标准编制出《西文文献著录条例》,据此进行西文文献的编目。

(3)我国的文献编目规则:1979年底,经国家标准局批准,我国正式成立了“全国文献工作标准化技术委员会”(后来更名为“中国情报文献工作标准化技术委员会”),该委员会下设的目录著录分委员会(即第六分委员会,后更名为“文献著录分技术委员会”),负责组织制订有关文献著录标准的工作。1983年7月,正式发表了全国文献著录标准系列中的《文献著录总则》,根据各种类型文献的共同特点,确定文献著录原则、著录内容、格式和标记符号等统一规定。其后又陆续出版了各个分册:即《普通图书著录规则》、《连续出版物著录规则》、《非书资料著录规则》、《地图资料著录规则》、《古籍著录规则》等。分册是根据某一类型的文献特点制定的该类型文献的著录原则、内容、格式等的规定。

20世纪90年代,在已经颁布实施的《文献著录总则》及分册的基础上,我国编制了《中国文献编目规则》,这也是我国编制的第一部综合性编目条例。

2.文献著录的计算机编目格式 MARC(Machine-Readable Catalog),通常也称为机读目录,是计算机编目的产品,指以代码形式和特定结构记录在计算机存储载体上,并用计算机识别和处理的目录。1965年美国国会图书馆开始研制机读目录,次年推出“MARCⅠ”,经过改进后1969年推出“MARCⅡ”。1971年美国国家标准学会批准MARCⅡ为美国国家标准。1973年ISO将MARCⅡ定为国际标准,即ISO2709《文献目录信息交换用磁带格式》,1996年第3版名称更改为《信息交换格式》。

(1)西文编目采用的MARC21。MARC21是美国机读目录编目格式(USMARC)和加拿大机读目录编目格式(CANMARC)通力合作的产物,于1999年上半年出版。其目的是编制一套处理英语世界信息资源的机读目录格式,并推广至全球使用。MARC21还出版了5种不同的机读目录格式:书目记录格式、权威记录格式、馆藏数据格式、分类记录格式、团体信息格式。

2001年8月,英国图书馆宣布采用MARC21。我国大多数图书馆的西文文献编目也采用MARC21。

(2)中文编目采用的CNMARC。CNMARC,即中国机读目录格式。1995年,经过一系列的研究和修订,北京图书馆出版了《中国机读目录格式使用手册》,并明确指出该格式供中国国家书目机构以计算机可读形式同其他国家机构之间进行规范数据交换使用,在我国规范数据格式尚未颁布之前,也用该格式向国内各馆提供机读规范数据。2001年7月,根据IFLA对UNIMARC所做的补充和修订,以及广大CNMARC用户的建议,潘太明等人对《中国机读目录格式使用手册》进行了修订,2001年出版了《中国机读目录格式使用手册(修订版)》。

3.网络医学信息资源描述 对网络信息资源的描述,一方面是遵循传统文献的描述规则,编目时在MARC格式中增设相应的字段;另一方面是开发新的元数据(metadada)规范方案,最为著名的是Dublin Core(都柏林核心集,通常简称DC)。所谓元数据,又称描述数据,是关于数据的数据,是对数据内容的描述。因此,图书馆的卡片式目录和MARC目录都是元数据。但在习惯上,元数据特指在标记语言(SGML,HTML,XML等)环境下对网络信息资源进行描述的解决方案

DC元数据是一项描述信息资源的国际标准,最早于1994年提出,以首次专题研讨会的地点都柏林命名。DC元数据包含15个著录元素,即:信息资源的题名(title)、主题(subject)、描述(description)、来源(source)、语言(language)、信息资源之间的关系(relation)、覆盖范围(coverage)、创建者(creator)、出版者(publisher)、其他信息资源的贡献者(contributor)、版权(rights)、日期(dates)、信息资源类型(type)、信息资源格式(format)、识别符(identifier)等。

医学图书情报界在DC的基础上研制出适用于医学信息资源描述的元数据。美国于1998年提出了医学核心元数据方案(Medical Core Metadata,MCM),目的是提供一个标准的医学网络资源的元数据方案,为医学研究者提供更有效的检索方法;法国研究的CISMeF元数据开始得更早,目前已用于法国因特网医学资源联机目录和索引的编制;日本在研究了上述元数据基础上提出了循证医学信息资源元数据方案(Metadata for Evidence-based Medicine Resources,EBM metadata),试图通过这种资源组织方法为循证医学研究提供所需的原始研究与二次研究资源。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈