首页 理论教育 主题标引的原则和步骤

主题标引的原则和步骤

时间:2022-04-12 理论教育 版权反馈
【摘要】:标引原则是指标引人员必须遵守的工作准则,目的是为了确保文献标引的准确性、一致性和连贯性。主题标引规则复杂而详细,包括一般原则、组配原则、选词原则和各类文献的标引规则等。词表转换原则是指标引员在进行词表转换时应该遵守的原则,也称选词原则。在主题标引过程中,遵循正确的步骤和掌握正确的标引方法,是每个标引人员必须具备的标引基本功。其目的是便于标引者从主题词表中选择一

标引原则是指标引人员必须遵守的工作准则,目的是为了确保文献标引的准确性、一致性和连贯性。主题标引规则复杂而详细,包括一般原则、组配原则、选词原则和各类文献的标引规则等。

(一)主题标引的一般原则

主题标引的一般原则是指为保证文献标引的一致性和连贯性,贯穿于整个标引过程中的原则。这些原则主要包括:

1.真实性 即必须标引真实的全文文献,不能只根据文献的题目或摘要进行标引。尽管绝大多数文献的题目经过了作者的推敲,能概括文献的实质内容,但很难将文献的内容概括全面,尤其是专业性很强的文献,必须经过全文标引才能全面揭示。

2.客观性 标引行业中有句名言:“Indexer is only indexer”。也就是说,标引人员须忠实于原文,客观对待要标引的文献,无权对其妄加评论和猜测,更不能掺杂个人观点和褒贬。而且,对原文的标引,也仅限于由实验证实的研究结果或讨论的内容,对作者在结论中的推断与假设,要慎重考虑是否有确切的事实依据,否则不能随意标引。

3.专指性 所谓专指性是指标引时要选用与文献内容最匹配的专指主题词,不能以泛指主题词(如血细胞)来标引专指概念(如红细胞),即当标引关于红细胞的文献时,不能用“血细胞”标引,以保证检索系统的查准率。

4.一致性 所谓一致性是指标引内容相同的一篇文献时,同一标引员在不同时间,不同标引员在同一或不同时间均应力争保持一致。只有这样,才能使同类文献集中在检索系统的同一主题。用户检索时,才能用相同的主题词检索到内容相同的文献。一致性原则是保证文献检索系统查全率、查准率的基本条件之一。

5.全面性 全面性要求标引人员在标引某篇文献时,所选的主题词应尽量全面,以保证检索者能从各自的专业角度检索到这篇文献。即能满足该学科不同专业的检索需求。

6.符合性 符合性原则贯穿于整个标引活动,主要包括:标引人员在分析文献、提炼主题和查表选词、转换主题概念过程中,要符合正确的标引步骤和方法;要遵守标引的各项规则;查表选用的主题词在词义上应与文献概念相符;选用的主题词必须是词表中的主题词,其书写形式要与词表一致。标引的符合性是一致性的基础,做到了符合性才容易达到一致性。

(二)词表转换原则

词表转换原则是指标引员在进行词表转换时应该遵守的原则,也称选词原则。虽然医学主题词表以收录医学词汇为主,但因词表的规范化和收词量的限制,词表中的词不可能完全满足自然语言中无限丰富的自然语言语词的需要。所以,在实际标引时并非所有的词都能够在词表中直接找到完全对应的主题词,此时就需要进行一定的转换。为了使转换时方法一致,MeSH提出了严格的选词原则。具体步骤如下:

1.首选先组词 所谓先组词,是指MeSH为了保证专指性而事先在词表中放置的一些出现频率很高的复合概念词,如“糖尿病性视网膜病”、“血小板减少性紫癜”等。标引时首先应该选用这些主题词,而不用这些概念的组配词,如“糖尿病”(主题词)+“视网膜病”(主题词)。不仅如此,还要求所选主题词的书写形式(包括复合主题词的先后顺序、标点符号、外文字母、阿拉伯数字等)与词表中的词形完全一致,如“高血压,肺动脉性”(倒置形式主题词)。

2.次选组配词 如果词表中没有相应的专指主题词(先组词),就采用概念分解转换的方式表达文献中的复合概念,即选用最直接相关的几个主题词或“主题词/副主题词”组配来表达。如,“神经病学”+“解剖学”表达神经解剖学(自然语言),“溴/中毒”,“锌/缺乏”表达溴中毒(自然语言),锌缺乏(自然语言)等。

3.再选上位词或靠近义词 如果采用主题词或副主题词组配也不能恰当地表达复合概念或专指概念时,可选用与该概念邻近的上位词或靠近义词标引。如假性近视(自然语言)用“近视”(主题词)表达,4-去甲基柔红霉素(自然语言)用“柔红霉素”(主题词)表达等。

4.补充关键词 对于有些专指概念,尤其是反映某学科领域最新进展的新概念、新术语等,为了保证查准率,当采用上述方法均不适宜时,可直接采用关键词标引,如“后基因组”、“单羧酸转运泵”、“低密度脂蛋白受体基因”等概念,在词表中找不到合适的对应词,也没有合适的上位概念可以靠,就可以直接将这些词作为“自由词”标引。

5.主题概念转换应注意的问题 在标引人员依照选词原则查表选词、转换主题概念的过程中,需注意如下问题:

(1)要随时注意主题词的增删、变更,尽量使用最新版本的主题词表。为适应生物医学的快速发展,MeSH词表每年修订一次,每次都会有增加、删除或词形变化的主题词,运用不同年份的词表标引时结果就会有不同。解决的办法就是尽量使用最新版本的词表。每年更新的主题词变化列表可利用MeSH网络版免费获得。

(2)自行转换主题概念。自然语言的同义词现象层出不穷,而词表中给出的仅仅是其中的一种形式,在词表没有给出“用”、“代”参照提示的情况下,大量的自然语言词汇需要靠标引者自己进行转换。因此,自行转换主题概念,是指由标引者自己将关键词转换成规范化的主题词的过程。此时,标引人员的专业知识十分重要。例如“血象”一词,词表中没有与之对应的主题词,通过标引人员的专业知识或利用相关书籍或请教专家对该词的深入理解,就能找到其对应的主题词“血细胞计数”。

6.利用英文词形查找中文主题词 由于我国应用的MeSH词表是中译本,某些主题词的中文翻译与中文文献通常的表达习惯可能不尽相同,尤其是药物名称类词汇,常常会出现找词困难。此时,可从文献的英文文摘或参考文献处找到该概念的英文形式,再从英文词入手便可找到对应的中文主题词。例如“丹那唑”这个词,从主题词表的中文“丹”字入口查不到,在英文摘要处找到该词的英文形式“Danazol”,此时从该英文词入手,即可查到相应的中文主题词为“达那唑”。

总之,查表选词的制约因素很多,需要不断实践,尤其对于初学标引者,会遇到很多查不到主题词的情况。只有经过系统的标引学习和标引实践的积累,才能逐步达到准确选词。

(三)主题标引的步骤

在主题标引过程中,遵循正确的步骤和掌握正确的标引方法,是每个标引人员必须具备的标引基本功。主题标引工作的基本流程如下:

1.文献主题分析 主题分析是主题标引的初始环节,其质量好坏直接影响最终的标引结果。必须对其重要性有充分的认识。所谓主题分析,是指根据文献存储与检索系统的要求,对文献内容进行分析,从中提炼主题概念、确立主题类型、剖析主题结构和确定概念间关系的过程。其目的是便于标引者从主题词表中选择一组恰当的语义相关的主题词作为文献的检索标识。

文献主题分析包括:审读文献、提炼主题概念、确定主题类型、剖析主题结构和确定概念间的关系。这5个环节在主题分析过程中往往交织在一起,很难截然分开。

(1)审读文献:正如主题标引一般原则所述,标引要求全面性和专指性,要求标引在手的文献,所以审读文献必须注意的关键一环是不能只凭题名标引。但也并非每篇文献都要阅读全文,而是应遵循一个基本流程:阅读并理解篇名→阅读引言→逐段浏览文章→阅读讨论→阅读结论→浏览一般资料、材料与方法→浏览参考文献→参阅关键词和摘要。在进行阅读时要思考下列问题:这篇文章的主要论点是什么?次要论点是什么?其实验、诊疗方法是特殊的、改进的吗?刊载文章期刊的级别如何?是权威期刊还是普通期刊?是基础研究还是临床研究?等。

(2)提炼主题概念:标引人员在审读文献过程中,要根据上述问题的解答提炼文献的主题概念,即对文献的内容进行“去粗取精”。由于标引人员知识背景和能力水平的差异,主题概念提炼的结果会有很大差异,尤其是初标引者对标引深度的把握欠佳,容易出现各种提炼错误,这些错误主要表现在:①主题概念提炼不全。这种误差往往称为“漏标”,会直接导致漏检,影响查全率。②主题概念提炼过多。这种误差往往因过度标引而增加检索“噪音”,常常会引起误检,降低查准率。③主题概念提炼错误。是指提炼出来的主题概念与文献中论述的主题概念含义不符合。如“高血压的药物治疗”这一主题概念中,如果提炼出“高血压的治疗”,则以外延大的概念“治疗”代替了外延小的概念“药物治疗”,而且“治疗”的外延包含了“药物治疗”的全部外延,这就是以大概小。反之,如果对主题概念“高血压的治疗”,提炼出“高血压的药物治疗”,就是以偏概全了。

(3)确定主题类型:虽然文献的主题内容错综复杂,但可以按不同标准将文献主题划分为几种有限的类型。掌握几种主要的主题类型,有助于标引人员更容易地进行主题分析,提高主题分析的质量。这里根据文献中讨论的主题数量的多少,将文献主题划分为以下几种类型:①单主题。单主题是指一篇文献所研究的对象或问题只有一个,即只有一个主题。如果采用主题词作为概念单位来衡量,单主题又可分为2种类型:一是单元主题,是由一个概念单元,即一个主题词就可以表达的主题。如《内科学》《药理学》等书籍,它们所研究的对象或论述的问题只有一个,词表中有相应的主题词“内科学”和“药理学”表达,这样的主题即为单元主题。单元主题常见的形式多出现在图书编目,在期刊论文中是极为少见的。后者大多为单主题的另一个类型,即复合主题。二是复合主题:是指一篇文献的主题必须由几个概念单元进行逻辑组配才能表达或描述的一种主题。例如:“膀胱直肠瘘”这一主题,要由“膀胱瘘”和“直肠瘘”两个主题词进行组配才能表达;“胃肠道对红霉素的反应”这一主题,要用“胃肠系统/药物作用”和“红霉素/药理学”这两个“主题词/副主题词”的组配才能描述清楚。②多主题。多主题又称并列主题,是指一篇文献所研究的对象或问题不止一个,而是几个具有并列关系的对象或问题。多主题由两个或两个以上单主题组成,因此分析主题时必须首先将多主题解析为一个个单主题。例如,“小儿腹泻与营养不良的饮食疗法”,分析时应将它解析为“小儿腹泻的饮食疗法”和“小儿营养不良的饮食疗法”两个并列的复合主题。

(4)剖析主题结构:一篇文献无论内容长短,都会涉及不同的主题因素,根据我国国家标准《文献叙词标引规则》(GB/T3860-1995)中规定的主题分面公式,将这些主题因素概括为5个基本范畴面:主体面、通用面、位置面、时间面、文献类型面。因此,剖析主题结构就是要分析每篇文献中究竟包含了多少个范畴面,每个面中又包含了多少个主题因素及它们之间的关系。

划分主题结构范畴面的标准应当是由所标引的检索系统的性质、任务和要求决定的,更确切地说,是由标引时依据的主题词表及其标引规则决定的。虽然每一种主题词表都有相应的范畴表或分类表,但它是从学科体系角度对主题词的分类,而主题结构模式对主题词的分类则是依据主题词在主题中的不同地位和作用划分的,二者是不同的。在医学文献主题标引中,我们将《医学主题词表》中的主题词和副主题词归纳为4个基本的范畴面,每个面即为一种类型的主题因素:①主体面。主体面是文献主题的主体部分,即文献所研究和论述的主题中的关键性概念。主体面中的主题因素称为主体因素。词表中凡是具有独立检索意义的主题词,都属于主体面中的主体因素。这种因素范围甚广,各种疾病、药物或化学物质、解剖学、生理学、诊断技术和生物学等概念均在其中。一篇文献的主题可能含有几个主体因素,这几个主体因素都可成为该文献的检索入口。②通用面。是指文献主题中的限定部分,即构成主题的一些通用概念。通用面中的主题因素称为通用因素。《医学主题词表》中的副主题词(如诊断、治疗、副作用等)所描述和表达的概念就是通用因素。它们一般没有独立的检索意义,在主题中仅对主体因素起限定或揭示两个主体因素关系的作用。③对象特征面。是文献主题的特征属性,是对主体面的一种限定和修饰。特征面中的主题因素称为特征因素。词表中的特征词所表达的概念就是特征因素。特征词是临床医师和科研工作者共同感兴趣的一组概念标识,其目的在于提供检索用户依据研究的不同状况进行专指性的成族检索。在医学文献主题标引中,为了提醒标引人员注意,特征词在标引工作单中单独列出,包括种属(人或动物)、性别、年龄、年代、研究类型、出版类型等。④位置面。是文献研究和论述的对象所处的空间位置。位置面中的主题因素称为位置因素,包括国家、地区、地名以及机构方面的主题词。在医学文献主题中,位置因素一般是从地理方面对主体因素的一种限定和修饰。

(5)确定概念间关系:一篇文献通常会涉及多个主题概念,这些主题概念之间并不是相互孤立的,而是建立在一定的逻辑关系的基础上。只有明确概念间的关系,才能有助于正确选词和组配标引。常见的概念间关系有并列关系、交叉关系、限定关系、因果关系、影响关系、应用关系、相关关系等。①并列关系:是指两个或多个单主题在概念关系上处于同等的并列地位。例如:高血压和糖尿病、贫血和营养不良,这里的两个概念之间即为并列关系。②交叉关系:指某一主题概念是由处于同等地位(同类)的两个或多个单元主题外延交叉后产生的。例如:“胃肠瘘”由“胃瘘”和“肠瘘”两个概念交叉产生;“胃溃疡出血”由“胃溃疡”和“消化性溃疡出血”交叉产生。③限定关系:指处于不同地位(不同类)的主题概念之间,其中一个概念被另一个或另几个概念从不同角度进行限定。例如:儿童白血病的病因学和病理学,“儿童”、“病因学”、“病理学”均对“白血病”有限定关系。④因果关系:指主题概念之间存在着原因和结果的关系。这种关系常见于疾病的致病因素研究,如某种疾病引起另一种疾病,某种药物、化学物质、物理因素或诊疗技术引起疾病等方面。例如:高血压引起脑卒中,微量元素硒缺乏导致充血性心肌病,阿莫西林导致皮疹,等等。⑤影响关系:指主题概念之间存在影响和被影响、作用和被作用的关系。这种关系常见于药物、化学物质、某些物理因素对器官、有机体、生理过程、行为和认知活动的影响。例如:卡尼汀对肝代谢的作用,倍他米松对血蛋白质的作用,电磁脉冲辐射对妊娠的影响,铅污染对儿童认知功能和神经行为的影响等。⑥应用关系:指主题概念之间存在应用和被应用关系。这种关系常见于药物、物理因素及诊疗技术应用于疾病的诊断、治疗方面的研究。例如:抗胆碱药物治疗妊娠高血压,高压氧治疗一氧化碳中毒,肝动脉造影诊断继发性肝癌等。

这六种关系并非独立存在,常常是几种关系同时出现。例如:“二甲基偶氮苯诱发肝癌过程中肝组织染色体及病理形态变化”中,“二甲基偶氮苯”和“肝癌”之间存在因果关系,“肝组织”和“染色体”之间属于相关关系,“肝组织”和“病理形态”之间属于限定关系。

2.转换主题概念 在分析文献主题、提炼出主题概念之后,根据检索系统规定的标引深度对主题概念的数量进行控制,接下来,就是对照主题词表将提炼出来的主题概念转换成规范化的主题词。

主题概念转换的种类:主题概念转换的种类与主题的类型有密切关系,主题的类型往往决定主题概念转换的种类。如前所述,主题类型的划分是由能否用一个主题词或几个主题词描述和表达而决定的。按照这个标准,可将主题概念的转换分为两种类型:直接转换和分解转换。

①概念的直接转换:文献的单元主题都可采用概念的直接转换。在这种转换方式中,尤其要注意一些复合主题词的转换。主题词表中往往收录了一些专指性强、出现频率高的先组词,一个文献的主题即使是由两个以上概念组成,但只要词表中有相对应的主题词,都要直接使用。例如:

a.文献主题:维生素D的缺乏

主题概念:维生素D缺乏

相应的主题词:维生素D缺乏

b.文献主题:肾血管性高血压

主题概念:肾血管性高血压

相应的主题词:高血压,肾血管性

②概念的分解转换。文献的复合主题在词表没有先组词的情况下,就需要由两个或两个以上的主题词组配表达。值得注意的是在进行概念分解组配时,需要使用的是概念组配,而非字面组配。例如:

a.文献主题:贲门肿瘤

主题概念:贲门肿瘤

分解的子概念:贲门;肿瘤

相应的主题词:贲门;胃肿瘤

b.文献主题:胃十二指肠结肠

主题概念:胃十二指肠结肠瘘可见,概念分解是复合主题概念转换必须使用的方法,也是正确选用主题词和进行概念组配的基础。

3.填写标引工作单 在分析文献主题和转换主题概念后,即对标引的主题词进行加权处理。然后将标引结果填入标引工作单。标引工作单是标引人员对标引的文献所作的记录,标引时每篇文献使用一张工作单。我国医学文献标引工作单的内容包括基本著录项目(页码、语种、作者、题名等)、特征词项、主题词项、中医词项、关键词项等栏目。标引工作单是将数据输入计算机的依据,标引人员填写时必须按照填写规范,准确无误地填写。

4.标引结果审核 主题标引结果的审核是指标引结果的终审,也是主题标引的最后一道程序,是保证主题标引质量和检索系统质量的一项重要措施。它通常不由标引人员本人来完成,而是由经验更丰富、更高一级的标引员承担。审核内容通常包括以下几个方面:

(1)文献主题概念的提炼是否全面、准确,隐含概念是否提炼出来。

(2)选用的主题词是否符合选词原则和组配规则。

(3)标引深度的确定、加权标引是否合适。

(4)同类主题所使用的标引词是否一致。

(5)标引工作单的填写有无错误,特别是特征词的选择有无遗漏等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈