首页 百科知识 文献检索策略与案例分析

文献检索策略与案例分析

时间:2022-06-21 百科知识 版权反馈
【摘要】:在文献检索的过程中,检索策略制定是贯穿于检索全过程的重要环节,也是关系检索效果的决定性因素。这种策略类似把各个积木块拼成完整图案,因此称为积木型检索策略。)积木型检索策略的优点是与检索课题概念化的过程相一致,能提供比较明确的检索逻辑过程,在理解和执行上都比较容易掌握。这种检索策略与最专指面优先策略极为相似,而且大多数情况下,最专指面往往登录数也最小。

第一节 文献检索策略与案例分析

在文献检索的过程中,检索策略制定是贯穿于检索全过程的重要环节,也是关系检索效果的决定性因素。检索策略的制定需要综合应用各种检索技能,既要确切把握课题内容,又要熟悉数据库概况与检索系统功能,还需灵活应用各种检索方法和技巧。本节将以理论结合实例的方式来阐述检索策略的制定方法。

一、文献检索策略概述

(一)检索策略的定义

在文献检索中,检索策略有广义和狭义之分。

1.广义的检索策略 指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的科学规划和指导。具体而言,就是在明确检索目的、分析课题特征的基础上,选择合适的数据库和检索系统,拟定检索方案,确定检索词,构建检索提问式,执行检索并调整检索式,直至获得较满意的检索结果的全过程。检索策略的制定流程如图9-1-1所示。其中每个环节包含的具体内容及注意事项请参见第一章第三节检索步骤介绍,在此不再赘述。

img203

图9-1-1 检索策略制定流程

2.狭义的检索策略 特指检索过程中构建检索式的环节,包含检索词的确定,运算符的选择,检索字段的设定及限制选项的设置等。

(二)常用的检索策略类型

在计算机检索的过程中,根据课题的复杂性、读者对检索结果的准确性和完整性的要求不同,可以选用不同类型的检索策略,以获得较为理想的检索结果。计算机检索策略的类型有多种划分方式,美国学者伯恩(Charles Bourne)的五种检索策略影响较为广泛,即积木型、引文珠形增长、逐次分馏、最专指面优先、最低登录量优先。

1.积木型(building block) 把检索课题剖析成若干个不同的概念面,检索时首先逐个查找各个概念面,在每个概念面检索时尽可能全和多地列举同义词、近义词和相关词,并用布尔算符“OR”连接,构成针对每个概念面的检索式,也就形成了针对检索课题的多个子检索式,最后根据课题要求,选用合适的布尔算符把所有子检索式连接起来,构成一个总的检索式。这种策略类似把各个积木块拼成完整图案,因此称为积木型检索策略。

【例1】 检索有关“肝细胞癌与吸烟”研究的文献。该课题可以分为两个概念面,每个概念面对应的检索词分别为:

    肝细胞癌         吸烟  

hepatocellular carcinoma    smoke  

hepatocellular carcinomas     smoker 

    hepatoma         smoking 

    hepatomas         cigar  

     …          cigarette

                cigarettes

                  …  

子检索式1(第一个概念面的检索式):S1=(hepatocellular carcinoma?OR hepatoma?OR…)

子检索式2(第二个概念面的检索式):S2=(smok*OR cigar?OR cigarette?OR…)

总检索式(该课题的检索式):S=S1AND S2

积木型检索策略的优点是与检索课题概念化的过程相一致,能提供比较明确的检索逻辑过程,在理解和执行上都比较容易掌握。然而这种模式也有较为明显的缺陷。由于每个概念面中的检索词用“OR”连接,所以检索用时较长。另外,检索中的人机交互性也较低,未能充分发挥网络的优势。

2.引文珠形增长(citation pearl-growing) 首先直接检索课题中较为核心的、最专指的概念面,以便至少检出一篇命中文献或相关信息。然后浏览这批文献,从中选出一些新的相关检索词,补充到检索式中去,重新检索出更多的命中文献。然后重复进行浏览选词再检索的过程,直到获得理想的最终检索结果为止。

这种检索策略最具有交互性,能较好地发挥人机对话的优势,选择的检索词更具针对性,增减检索词更为合理,检索式在变化发展中更趋完善,当然,检索者在浏览选词过程中的经验对检索效果也有较大的影响。其不足之处主要是浏览思考时间较长,检索费时较多。

3.逐次分馏(successive fractions) 先用较宽泛的检索式,确定一个相当大的、范围较广的命中文献初始集,然后逐步利用各种检索限制或限定措施,逐渐提高检索式的专指度,不断缩小命中文献集,直至得到数量适宜、用户满意的命中文献集合为止。

这种检索策略有利于平衡检索的全面性和准确性,如能较好地掌握检索限制和限定的尺度,可取得相当好的检索效果。

4.最专指面优先(most specific facet first) 首先从课题中最专指的一个概念面入手检索,在得到初步检索结果后再依据用户需求,决定是否要加入其他概念面。这些其他概念面是供选择用的,只在检索要求提高查准率时才需输入,各概念面在检索式中是逻辑“与”的关系。如果觉得命中文献太少,那么通常不需要再把其他概念面加到检索式中去。

这种检索策略比较灵活,通过对初步检索结果的不断调整,逐渐达到最终检索结果。由于从最专指的概念面入手,因此检索用时也相对较少。

5.最低登录量面优先(lowest posting facet first) 所谓登录量,是指一个索引词在标引中的使用次数。它一般记录在数据库索引词表中,用户在检索时可以在索引词表界面中直接浏览到每个索引词的标引数量或对应的文献数量,可以根据特定的检索课题,查询到该课题中每个概念面对应的检索词在索引中的登录量,并据此估算出将查到多少命中文献,或者至少能知道可能查出的最大文献量是多少。可见,登录量数据在检索中很有价值。“最低登录量的面优先”就是先根据词的登录量值,找出登录量最少的那个概念面,然后以此为检索入口开始检索。如命中文献数相当少,就不必再继续检索其他的面,如结果较多,再选择较低登录量的概念面加入到检索式中,概念面之间的逻辑关系也是逻辑“与”的关系。例如,检索课题为“治疗心血管病的蒙药经典方‘赞丹-3汤’的二次开发”,很显然,“赞丹-3汤”的登录量比“蒙药经典方”、“心血管病”的登录量要低,检索时则应首先从“赞丹-3汤”这一概念面着手进行。

这种检索策略与最专指面优先策略极为相似,而且大多数情况下,最专指面往往登录数也最小。之所以把最低登录量面优先作为一种独立的策略,是因为在计算机信息检索中,常常很容易明确哪个概念组面的登录最小。

二、文献检索效果评价

文献检索效果是指整个检索过程的效率和结果,它直接反映了检索系统的性能和用户检索策略的有效性。检索效果的评价不仅需要考察体现检索性能的技术指标,还包括反映用户检索所花费的成本等经济指标。根据美国学者克莱弗登(C.W.Cleverdon)的研究,评价文献检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。

收录范围是指数据库覆盖的学科范围、信息类型、数量和时间跨度;查全率是指检索系统检出相关文献的能力;查准率是指检索系统拒绝不相关文献的能力;响应时间是从提交检索提问式到查出文献所需的时间;用户负担是指用户在检索过程中所耗费的物力、财力、智力乃至体力的总和;输出形式是指检索结果的输出格式和方式,以及结果优化等性能。上述6种指标又以查全率和查准率两项指标最为重要。

在定义查全率和查准率之前,我们首先将数据库收录文献按以下矩阵分类(表9-1-1)。

表9-1-1 检索结果矩阵

img204

该矩阵中,纵向是检索系统对数据库全部文献相关性的评估,横向是用户对数据库全部文献相关性的评估。按照此表我们可以对查全率和查准率加以描述。

(一)查全率

查全率(Recall Ratio,简称R)是检索系统中检出的相关文献数量(a)与检索系统中相关文献总量(a+c)的比率,即:

img205

(二)查准率

查准率(Precision Ratio,简称P)是检索系统检出的相关文献数量(a)与检出的文献总量(a+b)的比率,即:

img206

(三)查全率与查准率的关系

查全率与查准率之间具有密切的关系。经多年实践证明,在某次具体的检索操作中,通常采取措施提高查全率时会降低查准率;反之,采取措施提高查准率时则会降低查全率。查全率和查准率这种互逆的关系,使我们在检索中很难实现查准率和查全率均逼近100%,因此我们在检索中要根据课题的实际需求,确定是以查准为主还是以查全为主,或是寻求查准与查全之间的平衡。

调整检索效果的方法参见第一章第三节检索步骤中检索策略调整部分内容。

(四)影响查全率和查准率的因素

影响查全率和查准率的因素既有检索系统性能的原因,也有用户检索策略上的问题,具体而言包括以下因素。

1.影响查全率的因素

(1)检索系统性能因素:①词表结构不完善,词间关系不准确,索引词缺乏控制和专指性;②标引深度不够,标引数量少,标引缺乏词汇控制;③没有位置算符,不具备截词功能,没有检索结果优化功能等。

(2)检索策略因素:①检索式中使用逻辑“与”太多,或不适当地使用了逻辑“非”,抑或位置算符限制太近;②未使用控制词表检索,或未选用下位词扩检;③使用检索字段限制较严格,形式特征检索限制过多等。

2.影响查准率的因素

(1)检索系统性能因素:①索引词汇缺乏专指性,未能正确反映文献主题和检索要求;②词表结构不完善,词间关系不准确,或是组配错误;③标引词使用不当及过量标引;④检索系统不具备逻辑“非”功能;⑤没有检索结果优化功能等。

(2)检索策略因素:①检索用词专指度不够,检索面过宽;②检索词使用不准确;③检索式中使用逻辑“或”不当,或位置算符限制太宽;④截词部位不准确;⑤使用检索字段限制较宽,未使用形式特征检索限制等。

基于以上这些影响因素,用户可以有针对性地选择调整检索策略的方法,以提高查准率或查全率。具体方法见第一章第三节检索步骤中检索策略调整部分。

三、文献检索策略构建案例分析

【例2】 有读者要撰写“国内外舌根肿瘤手术治疗新进展”的综述,需查阅相关文献。

1.检索目的分析 该课题为撰写最新研究进展的综述,因此要对最近几年该领域的文献作普查性的检索,侧重查全。

2.课题内容特征分析 该课题属于口腔疾病中舌肿瘤这一学科,包含“舌根肿瘤”和“手术治疗”两个概念面,都没有分支概念。“新进展”一词在大量论文中可能不出现,但实际是新的手术方法的研究,用于检索会造成大量漏检,因此,可以用论文发表的年份来限定,不作为检索用概念面。

3.课题形式特征分析 检索年限可以限最近5年,文献类型选择期刊和会议文献,由于该课题各国都有研究,因此文献语种包括中外文各种语种。

4.选择数据库及检索系统 由于侧重查全,课题涉及检索词较多,检索式相对较复杂,因此选择收录文献量大、检索功能强大的核心检索系统检索。根据学科专业,可选择CBM、万方中国学术会议论文全文数据库、Ovid-MEDLINE、ISI-ISTP。

5.拟定检索词和检索式

(1)CBM数据库:该数据库有规范化主题词表,应当首选规范化主题词检索途径。用主题词表未匹配到“舌根肿瘤”的规范化主题词形式,在这种情况下可以根据其所属的学科上级概念,查找上级概念的主题词形式,再结合自由词检索,获得舌根肿瘤的相关文献。因此,此题首先用主题词表检索“舌肿瘤”,选择副主题词“外科学”,获得初步的检索结果,然后再在基本检索状态下输入自由词“舌根”进行二次检索,再限定检索年限为2002—2007,即可获得相关结果。这样可以在基本查全相关文章的同时也保证了一定的查准度。

(2)万方中国学术会议论文全文数据库:该数据库没有规范化主题词表,因此使用自由词检索。由于对课题中两个概念面的同义词、近义词比较熟悉,因此可使用“积木型”检索策略,首先列举“舌根肿瘤”的同义词、近义词,包括舌根肿瘤、舌根部肿瘤、舌根癌,用逻辑“或”连接,由于相关的会议论文可能较少,所以选择全部字段,检索后得到初步检索结果。再列举“手术治疗”概念面的同义词、近义词,包括手术、外科,由于外科和手术都是治疗方法,因此,“治疗”一词可以不作为检索词。检索操作时,在首次检索结果页面中输入“手术”,选择“在检索结果中检索”,可得到有关舌根肿瘤手术治疗的文献。由于万方二次检索不提供逻辑算符,所以接着再重复“舌根肿瘤”概念面的检索,然后再使用“外科”在检索结果中检索,又可以获得其他相关文献。

(3)Ovid-MEDLINE数据库:该数据库有规范化主题词表,应当首选规范化主题词检索途径,检索方法与CBM类似。主题词“Tongue neoplasms”,选择“surgery”为副主题词,在获得初步检索结果后,输入舌根的自由词。由于舌根英语有多种表达形式:tongue base,base of the tongue,base of tongue等,因此使用位置算符以便查全,检索式为tongue adj3 base。最后将舌肿瘤手术治疗的检索结果与舌根的检索结果进行and运算,并限定检索年限为2002—2007,即可获得相关的检索结果。

(4)ISI-ISTP数据库:该数据库没有规范化主题词表,因此使用自由词检索,同样使用“积木型”检索策略。先列举“舌根肿瘤”的同义词、近义词,包括:tongue base cancer,tongue base carcinoma,base of(the)tongue cancer/carcinoma,carcinoma/cancer of tongue base/base of(the)tongue等多种形式。再列举“手术治疗”的同义词、近义词,包括:surgery,operation(s)。因此检索式为:((tongue same base same cancer)or(tongue same base same carcinoma))and(surgery or operation*),在Topic字段中检索,年限设2002—2007,即可获得相关检索结果。

【例3】 有读者要申报关于“血管紧张素1-7对心肌作用”的科研项目,需了解国外是否有相关研究,对课题的新颖度作出评价。

1.检索目的分析 该课题为申报科研项目,必须具备一定的新颖性,因此要作普查性的检索,侧重查全。

2.课题内容特征分析 该课题学科属于神经肽类物质对人体脏器的作用这一学科,包含“血管紧张素1-7”和“心肌”两个概念面,“血管紧张素1-7”没有分支概念,“心肌”有分支概念“心肌细胞”、“乳头肌”、“心成肌细胞”。

3.课题形式特征分析 由于要评价新颖度,因此检索年限应不作限制。文献类型选择期刊和会议文献,由于该课题要了解国外是否有相关研究,因此文献语种为外文各种语种。

4.选择数据库及检索系统 由于侧重查全、查新,课题涉及检索词较多,检索式相对较复杂,因此选择收录文献量大、检索功能强大的外文核心检索系统检索。根据学科专业,可选择Ovid-MEDLINE、ISI-ISTP。

5.拟定检索词和检索式

(1)Ovid-MEDLINE数据库:先选择MEDLINE 1950to present数据库检索。“心肌”应使用规范化主题词表匹配到的规范词“Myocardium”进行全部树的下位词扩检,并选择所有副主题词。“血管紧张素1-7”的英文书写形式为angiotensin-(1-7)或angiotensin1-7由于不知道是否还有其他书写形式,所以我们可以采取“引文珠增长型”检索策略。首次检索使用“angiotensin-(1-7)”or“angiotensin1-7”(注意:Ovid-MEDLINE数据库检索词中出现括号或连字符时,必须使用精确匹配符(“  ”),否则将被视为非法的检索词,显示出错信息)。在检出文献中浏览全记录后,发现“血管紧张素1-7”还有ang-(1-7)的形式,将ang 17加入检索式,用or连接后,检索式为“angiotensin-(1-7)”or“angiotensin1-7”or“ang-(1-7)”。然后再浏览检索结果的全记录,又可以发现还有ang1-7形式,再将其加入检索式,检索式为“angiotensin-(1-7)”or“angiotensin1-7”or“ang-(1-7)”or“ang1-7”。这样“血管紧张素1-7”这一概念面基本可以查全了。最后将“心肌”主题词检索结果与“血管紧张素1-7”作and运算即可得到最终结果。

由于立项要尽可能查全,所以还应该检索MEDLINE In-Process &Other Non-Indexed Citations数据库。该数据库没有主题词表,因此使用自由词检索。由于该数据库文献量较少,可以采取“最专指面优先”检索策略。在该课题中,最专指的概念面是“血管紧张素1-7”,因此直接用“血管紧张素1-7”的检索式“angiotensin-(1-7)”or“angiotensin1-7”or“ang-(1-7)”or“ang1-7”检索,得到9篇文献,文献量相当少,可以不用再加入“心肌”这一概念面,通过浏览这9篇文献即可确定是否与课题相关。

(2)ISI-ISTP数据库:该数据库没有规范化主题词表,因此使用自由词检索,使用“积木型”检索策略。在Topic字段的检索框内输入检索式:((“angiotensin-(1-7)”or“angiotensin 1-7”or“ang-(1-7)”or“ang1-7”)and(myocardi*or cardiac myocyte*or cardiomyocyte*or papillary muscle*or cardiac myoblast*or cardiomyoblast*)),即可获得相关检索结果。

【例4】 有读者在配制中成药过程中,要使用龙涎香,他想了解国内外有关“龙涎香在配制中成药中应用研究”的文献。

1.检索目的分析 该课题为解决实际问题,因此侧重查准。

2.课题内容特征分析 该课题学科属于中草药研究,包含“龙涎香”和“中成药”两个概念面,“龙涎香”没有分支概念,“中成药”分支概念众多。

3.课题形式特征分析 由于要解决实际问题,只要找到若干篇相关文献即可,且此课题估计相关文献数量较少,因此检索年限不作限制。文献类型选择期刊文献。由于该课题要了解国内外是否有相关研究,因此文献语种为中文和外文各种语种。

4.选择数据库及检索系统 由于该课题属于药学研究领域,因此选择收录药物文献量大的数据库EMBASE和CBM。

5.拟定检索词和检索式

(1)EMBASE数据库:由于目的是找到几篇相关文献,解决实际问题,侧重查准,因此可以使用标题字段限定,而不必再使用规范词表检索。课题中“中成药”这一概念面太宽泛,难以列举,可以使用“合成(synthesis)”这一检索词。直接在检索框中输入检索式:(ambergris and synthesis).ti,命中文献4篇。

(2)CBM数据库:由于估计此类文献很少,可以使用“最低登录量优先”的检索策略。显然在课题的两个概念面中,“龙涎香”(ambergris)的登录量要远远小于“中成药”,因此可以在CBM索引检索中,输入检索词“龙涎香”,可知该词命中文献数为5篇,由于数量很少,也不必再加入“中成药”这一概念面,直接点击索引列表中索引词“龙涎香”的链接,即可浏览这5篇文献。

【例5】 有读者在撰写“双酚A对生殖系统毒性研究”的论文,要查找相关的国内外论文作为研究参考。

1.检索目的分析 该读者论文已经定题,因此查新性质的文献普查阶段已经结束,在研究的过程中要找参考文献,应侧重在查准的前提下不漏检相关文献,实际是要追求查准与查全的平衡,并注重获取全文。

2.课题内容特征分析 该课题学科属于酚类对人体脏器毒性研究,包含“双酚A(bisphenol a)”、“生殖系统(genitalia)”、“毒性(toxicity)”3个概念面,“双酚A”通过查找化学物质手册,得知有如下别名:“二酚基丙烷”、“2,2-双对羟苯基丙烷”、“BPA”、“2,2-bis-4-hydroxyphenylpropane”、“4,4′-dihydroxy-2,2-diphenylpropane”、“4,4′-isopropylidenediphenol”,“毒性”没有分支概念,“生殖系统”分支概念众多,较难列举完整。

3.课题形式特征分析 由于该课题是对最近研究情况的查询,因此检索年限可以设定为最近5年。文献类型选择期刊论文,文献语种为中外文各种语种。

4.选择数据库及检索系统 由于侧重查准查全的平衡,且课题涉及检索词较多,检索式相对较复杂,因此选择检索功能强大的外文核心检索系统检索。根据学科专业,可选择Ovid-MEDLINE。中文文献由于中国期刊全文数据库收录期刊量大,且可以直接获得全文,因此选用该数据库。

5.拟定检索词和检索式

(1)Ovid-MEDLINE数据库:选择MEDLINE 1996to present数据库检索,经规范化主题词表查询,“双酚A”没有规范词,由于“双酚A”是化学物质,所以使用字段限定检索,点击“Search Fields”后选择“nm”(物质名称)字段,输入bisphenol a,执行检索。为提高文献的检准度并保证一定的查全率,使用“双酚A”的上级概念“酚类(Phenols)”作为主题词匹配“毒性(toxicity)”副主题词,“生殖系统(Genitalia)”是主题词,匹配全部副主题词,然后再将3部分检索式进行and匹配,最终检索式为bisphenol a.rn and exp phenols/to[toxicity]and exp genitalia/,限制检索年限2002—2007,命中文献82篇。由于检索者是写作参考,只需要重点论述该论题的文献,且最好可以直接获取全文,因此对检索式进行调整,对phenols/to[toxicity]和exp genitalia/进行Focus加权检索,得到命中文献46篇,文献的相关度得到了进一步提高。但46篇仍然偏多,因此进一步在“More Limits”界面选择“Full Text”限定,以便直接获取全文,这样获得最终命中文献25篇。通过自由词结合规范词的检索,既保证了查全“双酚A”的文献,又使检索结果能重点论述对生殖系统的毒性,又通过加权和有全文限定将命中文献数调整到可接受的范围内,较好地平衡了查全和查准。这种通过各种限定逐步缩小命中文献数的检索策略就是“逐次分馏”。

(2)中国期刊全文数据库(中国知网主站):由于该数据库没有规范化主题词表,因此可以通过把不同的概念限定在不同字段中,并多用同义词检索的方法,来控制检出文献的相关度和完整性。首先列举“双酚A”的同义词,并用或者连接,由于课题中“双酚A”是研究前提,因此是该课题的核心概念,限定在“篇名”检索项中,以保证检出文献都是重点论述“双酚A”的。然后,将“生殖”一词限定在“主题(篇名、关键词、摘要)”检索项中,以提高检全度,这样不仅能检索出篇名中含“生殖”的文献还能检出含“睾丸”、“繁殖”、“生育”、“精子”、“生精”等相关词语,要比限定在“篇名”中检出更多相关文献。至于“毒性”一词,在此可以省略,因为“双酚A”与生殖相关的研究基本就是毒性研究。因此,在中国期刊全文数据库(中国知网主站)中,应选用“高级检索”,输入如下检索式(图9-1-2)。

img207

图9-1-2 中国期刊全文数据库中关于“双酚A对生殖系统的毒性研究”的检索

总之,检索策略的制定要从用户的具体需求出发,既需要丰富的学科专业知识,又要了解各种数据库的收录情况和检索功能,熟练运用各种检索技术,并经过适当调整检索策略,才能达到理想的效果。这只有在掌握检索技术的基础上,通过在课题实例检索中不断地操练,才能逐步提高检索技能。

(王宇芳)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈