首页 理论教育 主题标引的相关问题

主题标引的相关问题

时间:2022-04-12 理论教育 版权反馈
【摘要】:和分类标引一样,主题标引也是文献加工的重要环节。医学文献主题标引顾名思义就是以医学文献为标引对象进行的主题标引。标引质量主要是指标引的准确性、符合性和一致性。事实上在进行文献标引时,尽管每篇文献的题名可能不同,但只要反映的主题内容相同,经过主题标引后,都能将其归入到相同的主题词下,从而保证了检索系统较高的检索效率。因此,要提高文献主题标引质量,必须提高标引人员的素质。

(一)主题标引的概念

各国图书情报界对文献标引的定义不尽相同。我国国家标准局GB3860-83《文献主题标引规则》对标引的定义是:标引(Indexing)是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程。具体而言,标引就是在主题分析的基础上,以一定的词表或标引规则为依据,将信息资源中具有检索意义的主题概念(关键词)转换成相应的规范词,并将其组织成表达信息资源内容特征的标识的过程。

和分类标引一样,主题标引也是文献加工的重要环节。通过标引,文献工作者赋予文献以检索标识,指明其内容特征的主题类属,而后用以配合书目信息编制出各种目录索引和数据库,以实现文献的检索。医学文献主题标引顾名思义就是以医学文献为标引对象进行的主题标引。其目的是通过对医学文献主题特征的描述,建立方便医学文献查找的医学主题词检索系统。

(二)主题标引的原理

信息存储与检索是一个交流的过程,与日常生活中人们用自然语言交流一样,会存在一定的语言障碍。如果用户对信息需求的表达(检索用词)和标引员对文献主题概念的揭示(标引用词)不能沟通,就会因语言障碍造成检索失败。因此,需要用一种受控检索语言对标引和检索所用的词汇进行控制,把用户的语言和标引者的语言统一起来。

1.信息检索中实施词汇控制的必要性 自然语言是指人们在交流中采用的书面语言或口头语言,是一种意义模糊、不易约束的人类交流思想的符号系统。所谓词汇控制,就是把自然语言加工成信息检索语言的信息控制过程。为什么要对信息检索中的词汇(标引用词、检索用词等)实施控制呢?原因在于自然语言用于信息检索时存在着以下缺点:

(1)词汇的同义现象。一义多词,即一个概念可用多个语词表达。如果不对同义词、准同义词加以控制,就会降低检全率;例如人们熟悉的艾滋病这个概念,在自然语言中就有AIDS、艾滋病、获得性免疫缺陷综合征等多种表达方式,如果不进行规范化处理,用户在检索时选词不全就很容易造成漏检。

(2)词汇的多义现象。一词多义,即一个语词代表多个概念,具有多种含义,脱离上下文,就很难判断其含义,从而影响检准率。例如疲劳,可以指生理上的,也可以指机器、材料方面的,甚至被用在感觉上,如审美疲劳。

(3)词汇的模糊性和不确定性。自然语言可以采用借喻、转义等多种手段表达词汇的含义,往往造成词义含混,难以辨认。例如突变,本身词义具有很大的不确定性,可以指基因突变,但也常会被描述为经典人文地理突变等等。

(4)词汇量大,给词汇的存储、加工和检索带来困难。

(5)词间关系不明晰,无法清楚地显示概念之间的关系。例如计划生育、避孕和人口控制这三个词,按字顺排列是分散的,看不出三者之间的内在联系,而在主题词表中,可通过参照注释反映出这三个词之间存在的相关关系。

由此可见,只有对自然语言进行适当的处理,才能克服其存在的缺陷,提高检索效率。

2.标引的原理 在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各种检索系统会使用专门的语言体系来描述信息的内容特征和外部特征,同时要求用户依此构造检索提问式来进行检索,这就是标引的原理。

标引首先是对文献内容进行主题分析,把握文献所论述的中心内容,形成主题概念,然后通过词表选用特定的文献检索语言表达主题概念,也就是将主题概念转换成文献的特征标识(主题词),最后将这种标识按其内容和出处进行编排,输入文献检索系统。文献检索是标引的逆过程,是在对课题的实质需求进行分析的基础上,选定主题概念,同样借助词表转换成规范化的主题词,即构建检索提问式,并向检索系统提问,匹配检索结果的过程。因此,标引和检索有着密不可分的关系。标引是手段,标引的目的就是建立检索系统,标引是为检索服务的;而检索系统的建立也必须依赖于标引。离开了标引,就没有真正意义上的检索;反之,离开了检索,标引也就失去了意义。

在标引过程中,对自然语言进行处理是标引的关键。这是一种把自然语言加工成信息检索语言的信息控制过程。它包括两个方面,一是对自然语言的语词进行压缩、优选和规范化处理;二是对自然语言的语义进行处理。二者相比,显然后者比前者更为重要。因为自然语言没有专门的控制词表,无法显示出词汇之间的语义关系。而叙词表和分类表,通过识别概念间关系,建立起一个与概念体系相对应的、具有层次结构的术语体系(即词汇体系)。在这个体系中,词汇之间是相互联系、相互依存、相互制约的。每个词汇的意义不再仅由其名称决定,而主要是由它在这个体系中的特定位置来决定。

3.标引在信息检索中的作用 检索语言的作用是沟通文献加工者和用户的桥梁,使双方在不同时间、不同情况下在描述同一信息特征时保持一致。由于信息检索的匹配过程是通过检索语言实现的,检索语言质量的好坏以及对它使用的正确与否将直接影响检索效率,因此用户检索能力的提高也离不开对检索语言的了解和掌握。

(1)标引质量决定检索系统质量:由于检索系统是经过标引建立的,所以标引的正确与否将直接影响检索结果。标引质量主要是指标引的准确性、符合性和一致性。其中准确性是指对文献主题内容进行分析、提炼和转换为检索标识的准确程度,它是衡量标引质量的首要标准;符合性是指标引所用的检索标识必须与词表中的主题词的词形相符,包括选词规则和组配规则的相符性;一致性是指同一标引人员在不同时间或不同标引人员在同一或不同时间对同一篇文献或相同主题的文献所赋予的检索标识(主题词)的一致程度。只有这样,才能使相同主题的文献集中在检索系统的同一主题之下,用户检索时,才能用相同的主题词检索到内容相同的文献。事实上在进行文献标引时,尽管每篇文献的题名可能不同,但只要反映的主题内容相同,经过主题标引后,都能将其归入到相同的主题词下,从而保证了检索系统较高的检索效率。因此,要提高文献主题标引质量,必须提高标引人员的素质。

(2)学会标引方法,提高检索效率:既然检索系统是经过标引建立的,那么对于检索者而言,学会标引方法,就能更好地使用检索系统。从检索原理知道,越了解检索系统,越容易选择检索提问词,匹配效果就越好。此时信息检索语言在检索中起到了语言保障作用,是沟通信息存储与检索两个过程,标引者和检索者双方思想的桥梁。因此,无论是专业检索者还是普通用户,都应认识到标引的重要性,认真学习标引的理论和方法,使信息检索工作达到较高的水平。

综上所述,标引在检索中起到了极其重要的作用,它不仅决定检索系统的质量,也直接影响到检索效果。谁掌握了标引方法,谁就掌握了检索的实质,谁就可以用最少的精力和时间,在信息海洋中获得猎取知识的主动权。

(三)主题标引深度

1.标引深度的概念 标引深度(indexing depth)是指对一篇文献的内容进行周详标引的程度,或者说标引一篇文献所赋予的主题词数量。一般来说,一篇文献给予的主题词越多,标引深度就越深。但在讨论深度时有一个前提条件,就是所选的主题词必须能够正确反映文献的主题内容,否则标引深度就失去了意义。在用词准确的前提下,标引深度越深,揭示一篇文献的内容越全面,越能增加文献的专指性,实现多途径检索。因此,标引深度是影响检全率和检准率的重要因素。给予一篇文献的检索标识少,称为浅标引;给予一篇文献的检索标识多,称为深标引。当然,标引人员在标引具体文献时,要根据实际情况灵活掌握,因为标引深度的控制不是孤立的、绝对的,而是相对的。它受诸多因素的影响。

2.标引深度的影响因素

(1)标引深度与检索效率:标引深度与检索效率是一种互逆相关性。一般是加大标引深度会提高检全率而降低检准率,缩小标引深度则会提高检准率而降低检全率。但在一定限度内,加大标引深度既可提高检全率,又可提高检准率。

(2)标引深度与标引成本:标引深度与标引成本成正比。一般是加大标引深度会增加标引成本。标引深度与标引效益的关系则视文献的重要性和检索系统的使用率而定。如果文献价值不大采用深标引反而会降低标引效益。如果检索系统的使用率很低,加大标引深度也不会增加标引效益。

(3)标引深度与被标引文献:被标引文献的价值与标引深度应一致,即价值大的文献应给予深标引,反之作浅标引。被标引文献的学科内容与标引深度有关。某些学科的文献可标引的项目较多,某些学科可标引的项目较少。被标引文献的数量与标引深度应成正比,即同等学科范围或专业范围的检索工具或数据库,收录文献数量较多者,应加大标引深度,否则可降低标引深度。

(4)标引深度与检索系统:标引深度应适应检索系统用户的检索要求。供专业用户使用的检索系统,应采取较大的标引深度;供一般用户使用的检索系统,则可采取较小的标引深度。对于专业性检索系统收录的文献,若属于本专业的,可采取较大的标引深度;若属于相邻专业的,则可采取较小的标引深度。

(5)标引深度与信息检索语言:信息检索语言的类型与标引深度有关联。如使用体系分类法则不可能作深度很大的标引,采用组配分类法或主题法,则可作深度较大的标引。

(6)标引深度与文献分析:标引深度取决于文献分析,即对文献做宏观分析还是作微观分析。对文献作宏观分析时,分析出的主题概念少,因而标引深度小;作微观分析时,分析出的主题概念多,标引深度就大。当然,标引深度不能过深,因为过深,检索误差就会增大,此时虽然检全率上升,检准率反而会降低。

可见,在建立检索系统时,应该对所标引的文献制定一个适宜的标引深度。根据检索系统和期刊优先级的不同,标引深度的划分标准也随之不同。如何确定标引深度,在很大程度上取决于标引方式的选择。如果检索系统采用的是浅标引,可采用概括分析的方法,只分析出信息资源的整体性主题;如果检索系统采用的是深标引,则应按描述分析的方法,对论述的各种有检索价值的主题概念进行充分的提炼和选取。另外,不同专业文献单位对标引方式的要求也不同。一般来说,综合性文献单位要求根据资源的整体内容,全面分析出有检索价值的主题对象;专业文献单位则根据用户需要,重点选取与本专业有关的信息内容。

(四)主题标引等级

1.标引等级的概念 在对文献进行主题标引时,通常会选出若干个反映文献内容的主题词,这些主题词的重要性不可能一样,尤其在深标引的情况下这种现象会更加突出。此时,为了让用户了解这些主题词的重要程度,就需要对其进行标引等级的确认。所谓标引等级(Indexing degree)是指将文献中的主题内容根据其重要程度划分等级,主要分三个等级。即一级概念标引、二级概念标引和三级概念标引。

2.标引等级的划分标准

(1)一级概念标引,也称主要标引。是指揭示文献主要论点的标引,反映的是文献的核心概念。具体内容包括:①反映文献主要论点或作者研究目的的内容,通常篇幅≥2/3;②有创新的、改进的实验研究或临床诊疗方法和手段;③重点讨论的专指性概念。

由于主要标引词要收入美国《医学索引》(index medicus,IM),故又称其为IM词。

(2)二级概念标引,也称次要标引。是指揭示文献次要概念的标引,反映的是文献中相对主要的概念。具体内容包括:①文献论述的次要重点,一般篇幅小于1/3;②被讨论的实验方法或临床诊疗技术;③主要标引词的限定词,例如:心绞痛时的心电图诊断,标引为:心绞痛/诊断(IM)+心电描记术,此时,心电描记术为配合标引词,仅起限定心绞痛诊断方法的作用;④特征词。如动物、年龄组、性别、时代、文献类型等。

由于次要标引词不收入美国《医学索引》,故又称其为NIM词。

(3)三级概念标引,也称不要标引。通常是指仅仅在文献中被提到,但未加讨论的一些概念,这些词是不需要标引的。具体内容包括:①文中提到但未加讨论的常规技术,如一篇关于甲亢的文献,常规需进行甲状腺功能试验。肺癌病人常规肺细胞活组织检查等等。②为实验方法提供的条件,如进行同位素检查需要的放射性示踪剂,诱导动物疾病需使用的化学药物等。③未具体讨论的、文章表格中列出的各种多项同类概念。如各种微量元素、氨基酸、生化指标、肿瘤组织学类型、联合化疗药物等。

3.标引等级的标注方式——加权标引 对于一篇已标引完的文献,尽管标引员已经明确了所标识的主题词的等级,但如果没有一种特殊标记做说明,其他人不可能了解这篇文献的主要论点。因此,必须采用一种方式加以标注,这个方式就称为加权标引。所谓加权标引就是指一种采用打星号的方式区分主要标引词和次要标引词的过程。即为所标引的主题词确定IM词和NIM词的过程。加权标引的目的是揭示文献重点,划分标引等级。它的表达方式有两种。一种是将星号加在主题词前面,如:*肝肿瘤,表示仅对该主题词加权,说明文献重点讨论的是肝肿瘤的问题,至于具体讨论肝肿瘤的哪些方面尚不确定。另一种是将星号加在主题词和副主题词之间。如:肝肿瘤/*外科学,表示对主题词和副主题词同时加权,说明该文献讨论的重点是肝肿瘤的外科手术方面。

4.标引等级和标引深度的关系 根据标引等级可以将标引深度分为深标引和浅标引。此时深标引是指对文献内容作完全的标引,即不仅标引文献的主要论点,而且标引次要讨论但仍有重要性的内容。简而言之就是主要、次要概念同时进行标引。目前机检系统采用的多为深标引;浅标引则指仅标引文献主要论点的内容,即对主要概念进行标引。加权标引是由浅标引决定的。

由此可见,标引等级和标引深度的关系十分密切,即标引等级决定标引深度。通过标引等级可以将文献内容的提炼确定在三个层面——核心概念面、重要概念面、一般问题面。标引时应根据检索系统的需求将这些概念面有针对性地放入相应的地方。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈