首页 百科知识 计算机检索基础

计算机检索基础

时间:2022-06-20 百科知识 版权反馈
【摘要】:计算机检索是建立在信息收集与信息存储的基础之上。检索语言是信息存储与信息检索时共同使用的约定语言,其作用是使信息存储的标识与信息检索的标识保持一致,以保证检索匹配命中。分类检索语言以分类法为信息标引和信息检索的依据。

第三节 计算机检索基础

计算机检索是在手工检索的基础上发展而来。20世纪50年代问世的脱机检索(offline search)开始用计算机自动进行检索批处理,70年代的联机检索(on-line search)借助通讯线路实现了远地实时检索,80年代的光盘检索大大减低了用户的检索费用,90年代进入网络时代,信息的共享检索能力大幅度提高。

一、检索原理

计算机检索是建立在信息收集与信息存储的基础之上。信息的存储标识与检索标识相匹配(mach)是检索成功的前提。

1.信息收集 信息的收集是指数据库制作者在已确定的范围之内采集数据源。例如CBM采集国内1600种中文生物医学期刊和会议录为信息源,SCI Expanded收录近6000种英语科技期刊文献及其引文信息为信息源。一种数据库的信息源范围不是一成不变的,一般每年会有小幅的增加或删减,总的趋势是信息源范围越来越广。

2.信息存储与标引 信息存储是将采集到的信息按规定格式进行加工,并由系统自动生成索引。在存储过程中,数据库加工人员需对文献信息进行预处理、归类、标引,如分类标引、主题词标引、文献类型标引等,以形成标准规范的检索语言。信息存储中的核心工作是标引。标引(indexing)就是把自然语言转换为人工控制的检索语言。标引分为人工标引和自动标引两种。人工标引的步骤是:分析文献主题,查主题词表或分类表,在文献记录的相应字段赋予主题词、副主题词、分类号、类目名、文献类型等。自动标引由计算机按设计者预先的设定,自动抽取文献的标题词或关键词、摘要或全文中的高频词进行标引。自动标引速度快、成本低、前后一致性好,但抽出的关键词表述文献主题的准确性还达不到人工标引的水平。

3.信息检索 信息检索是指用户从数据库中查找所需信息的过程。检索时,用户通过分类体系、主题词表等,将检索意图转换成检索语言标识,与数据库中的存储标识相比较,两者匹配一致,才能检索命中(图1-3-1)。

img4

图1-3-1 检索原理图

4.检索匹配 检索匹配指检索提问与数据库记录中的检索标识一致或基本一致,即存储标识和检索标识相一致。匹配有完全匹配(每个字或每个字母都相同)、部分匹配(词干相同,词尾不同,利用截词符检索)、容错匹配(容许检索词有小部分不一致)和扩展匹配(下位主题词扩检、下位分类扩检)等。

导致检索不匹配的原因有:(1)需要的文献信息不在所查数据库收录范围之内;(2)检索用词正确但标引有误;(3)检索提问错误,包括检索途径用错、检索词用错、运算符用错。检索提问错误中,最常见的是没有使用数据库中的规范化检索语言。

二、检索语言

检索语言是信息存储与信息检索时共同使用的约定语言,其作用是使信息存储的标识与信息检索的标识保持一致,以保证检索匹配命中。

1.检索语言的种类 检索语言分两大类:描述文献外表特征的检索语言和描述文献内容特征的检索语言。前者包括书刊名、著者、著者机构、出版机构等,后者主要有分类检索语言和主题检索语言。以下介绍分类检索语言和主题检索语言。

2.分类检索语言 分类检索语言以科学分类为基础,以分类号或类目名作为检索标识。分类检索语言以分类法为信息标引和信息检索的依据。

(1)分类法的种类。分类法采用概念逻辑分类的一般原则,从总到分,从一般到具体,逐级展开,构成具有上下位隶属关系和同位并列关系的知识体系。国外比较著名的分类法有杜威十进分类法(Dewey Decimal Classification,DDC)、国际十进分类法(Universal Decimal Classification,UDC)、美国国会图书馆分类法(Library of Congress Classification)、美国国立医学图书馆分类法(NLMC)等。国内使用最普遍的分类法是中国图书馆分类法。互联网上的一些门户网站自创的分类体系也具有分类法的功能,如Yahoo!、Google中的分类浏览。

(2)中国图书馆分类法。中国图书馆分类法简称“中图法”,最新版是1999年出版的第4版。“中图法”分基本大类22个,例如:A马克思主义、列宁主义、毛泽东思想、邓小平理论;B哲学、宗教;C社会科学总论;D政治、法律……N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物学;R医药、卫生……

在“R医药、卫生”类目下又分17个二级类目,它们是:R1预防医学、卫生学;R2中国医学;R3基础医学;R4临床医学;R5内科学;R6外科学;R71妇产科学;R72儿科学;R73肿瘤学;R74神经病学与精神病学;R75皮肤病学与性病学;R76耳鼻咽喉科学;R77眼科学;R78口腔科学;R79外国民族医学;R8特种医学;R9药学

按类目的隶属关系,可以逐级展开,划分出更专指、更具体的类目。例如,“血液学检验”的分类号是“R446.11”,它的上位类目和同位类目是:

R 医药、卫生

R4 临床医学

R44 诊断学

R446 实验室诊断

R446.1 生物化学检验、临床检验

R446.11 血液学检验

R446.12 尿液检验

……

为了易于辨认,“中图法”分类号3位数字后加“.”。

在我国,“中图法”不仅用于图书馆的书刊排架和目录组织,还用于一些中文数据库的分类检索中。有的数据库完全照搬《中图法》的分类体系,有的只利用“中图法”中的类目名,不用分类号,且对“中图法”的分类体系稍有更改。

3.主题检索语言 主题检索语言是用于表达文献主题内容的词语标识系统,应用最多的是关键词法和主题词法。

(1)关键词法。关键词是未经规范化处理的自然检索语言。广义的关键词是指出现在文献标题、关键词、文摘和全文中的文本词,即自由词,狭义的关键词指作者投稿中所列出的处于文章标题和文摘之间的3~5个关键词。关键词具有以下特点。

1)有关键词检索而没有主题词检索的数据库制作成本低,因为它省去了主题词标引和制定主题词表的工作。

2)用关键词检索可以检索到那些新出现的科技名词术语。

3)在同义词多的情况下,用一个关键词检索容易造成漏检。

4)关键词法未经数据库加工人员的分析干预,不完全揭示文献的实质内容,因此容易检索到相关性不大的文献。

(2)主题词法。主题词(subject heading)又称叙词(descriptor),是经过规范化处理的人工检索语言。主题词具有以下特点。

1)在多个同义词中规定一个词(或词组)为主题词,通过主题词表的参照系统将非主题词引见主题词,或引见相关的主题词。例如:strokes(中风)see cerebrovascular accident(脑血管意外)。

2)配有副主题词,使文献检索更具针对性。例如:Asthma/drug therapy中的drug therapy是副主题词,表示需要检索哮喘药物治疗方面的文献,而非哮喘所有方面的文献。

3)主题词表中有树型结构(tree structure),形成主题词的等级知识体系,从中可了解主题词的隶属关系,便于理解和选择更合适的检索词。

4)主题词往往滞后于科学技术发展。新的科技词汇要在文献中出现一段时间并达到一定数量后,经专家学者推荐和词表制定者的核准,才可能成为正式的主题词。

在医学领域中,最成熟的主题词法是用于PubMed等数据库中的Medical Subject Headings(医学主题词表,简称MeSH)(参见第二章第一节)。“中国生物医学文献数据库”(CBM)中使用的主题词表是MeSH的中译本和我国自己编制的《中医药学主题词表》合并而成的主题词表。

三、检索途径

检索途径是指用记录的某一特征为检索切入点进行检索,通常体现为字段检索。常用的检索途径如下。

1.自由词检索 自由词又称文本词(text word),是作者写文章时所使用的自然词语,包括标题词、关键词、文摘词、全文词。自由词不受主题词表约束,同一概念用词取决于著者的偏爱。

2.主题词检索 主题词是一种规范化的检索语言。主题词的规范作用在于对同义词、近义词、拼写变异词、全称与缩写等进行归并,以保证一词输入,多词命中,提高文献的查全。主题词由主题词表(thesaurus)控制。例如在MeSH主题词表中,关于“肾功能衰竭”的描述,著者可以用renal failure表示,也可用kidney failure表达。但MeSH词表规定,renal failure see kidney failure,意思是应该用see引见的主题词kidney failure来检索。假如有两篇论述“肾衰竭”方面的文章,一篇文章中用renal failure,另一篇用kidney failure,由于标引人员会在这两条记录的MeSH字段标引上主题词kidney failure,因此用kidney failure检索,这两条记录都命中。如果用不是主题词的renal failure检索,查到一篇,漏掉一篇。

3.分类检索 分类法(classification)是利用学科、专业、概念之间的逻辑关系建立的一种等级体系。在分类法中,用数字或数字加字母构成的分类号代表一个一个概念,这些概念之间有反映上位类下位类关系的从属关系,有反映同位类之间的并列关系。分类检索普遍用于图书馆馆藏目录查询系统,也用于CBM等中文数据库中,但西文数据库中采用分类检索的少见。国内最常用的分类法是中国图书馆分类法,简称“中图法”(参见本节检索语言部分)。

4.著者检索 著者(author)检索是用文献上署名的作者或编者的姓名作为检索词。著者检索的规则是:姓(last name,surname,family name)在前,名(first name,given name)在后,更多的情况是名只用首字母。欧美人在社会交往中或原文署名时,名放在姓之前,因此,检索时必须进行姓与名的转换。例如:Christine Wade要改成Wade C来检索,William Henry Smith要变成Smith WH来输入。著者姓名中若出现逗号,表明逗号前就是姓,例如Smith,William Henry中,Smith是姓,William Henry是名,检索时去掉逗号,名保留首字母。在西文数据库中查中国著者发表的文献,也是姓在前,名的拼音首字母在后。例如检索“闻玉梅”发表的文章,检索词是wen ym。

著者检索时,有时会出现同名同姓但不同人。遇此情况,可借助文献主题、期刊名称和著者单位加以鉴别。

5.引文检索 列于文章后面的参考文献叫做被引用文献(cited paper),列有参考文献的文献称为引用文献(citing paper)。引文检索是以被引用文献为检索起点来查找引用文献的过程。引文检索的作用有:①通过某篇较为经典的文献查询那些在主题上具有继承和发展的新文献;②通过文献被引用情况来评价著者的学术水平;③通过从引文数据库中统计得出的期刊影响因子来查看期刊的学术质量。引文检索最常用的检索词是被引用文献的著者,也有反映被引文献主题的词,或被引文献的刊名等。引文数据库中提示引文检索的词汇有:引文、参考文献、cited author、reference、cited ref search、cited work等。提供引文检索的数据库有Web of Science,中国期刊全文数据库等。

6.机构检索 机构检索以机构名称为检索词,来查该机构学者发表的文献。不少数据库把机构名并入地址字段(address)。选择地址字段检索,既可从机构名称入手,也可按机构所在的城市名或国家名进行检索。常见的机构检索字段名有organization,address,institution等。

7.刊名检索 刊名检索供检索指定刊物上发表的文献。有的数据库提供刊名浏览,简单点击刊名链接即可,有的则须输入期刊名称,或两者兼有。西文期刊名的输入有刊名全称(full journal name)和刊名缩写(journal abbreviation)的区别,两者不能混淆。对刊名缩写与全称转换无把握时,可查询数据库中的收录期刊一览表,例如Web of Science中的full source titles list等。

8.默认检索 默认(default)检索又称缺省检索,是在检索系统预先设定的多个字段中进行检索,目的是为了查到更多的文献。例如,CBM中的“缺省”检索是在中文题名、文摘、主题词、关键词、特征词、刊名6个字段中搜词检索,Web of Science中的Topic检索是默认在title,keyword和abstract 3个字段中检索。

9.其他检索途径 其他检索途径有:专利号(patent number)检索,国际标准连续出版物编号(ISSN)检索,化学物质登记号(CAS registry number)检索,分子式(formula)检索,记录顺序号(accession number)检索,化合物结构图检索(structure search)等。

四、检索步骤

一个正规的检索课题,应当遵循以下检索步骤:分析课题需求→选择数据库→选择检索途径→拟定检索词→构筑检索式→浏览检索结果→(调整检索策略→重新检索操作→)输出检索结果→(获取原始文献)。

信息检索的过程是一个整体。无论什么主题内容,无论何种检索系统,其检索流程大同小异。在以上程序化的过程中,每一个步骤都是整个检索过程不可或缺的一部分,其中任何一步遗漏或出错,都会对检索结果产生负面影响。因此,放眼检索的整体流程,把握检索的共性原则,做好检索的策略调整,才能接近查全查准之检索目标。

1.分析检索课题,明确检索要求 首先要分析检索课题的主题内容、所属学科范围、所需信息内容和本次检索的目的。若对课题背景不够熟悉,可先利用专著、教科书、综述、百科全书、词典等,尽可能多地了解课题的基本知识、目前的研究进展、常用的名词术语、著名的专家学者。

其次要明确所需文献信息的类型、语种、检索年限、研究对象的性别年龄、期望得到的文献数量等。例如,检索课题是侧重基础研究还是临床研究?任何文献类型都要还是只要综述文献?查最近3年文献还是近5年文献?倾向查全还是查准?等等。当然,可以在得到初步检索结果之后进行检索的调整。

2.选择数据库 熟悉了解各种数据库的收录学科范围是正确选择数据库的前提。例如,欲检索国内生物医学文献,首选的数据库是CBM,还可选中国期刊全文数据库、中文科技期刊数据库等;若要比较完整地检索国际上的生物医学文献,首选PubMed,同时可考虑用EMBase、BIOSIS Previews等补充检索;若要快速查询到英文医学文献的全文,可选ProQuest Health and Medical Complete、OVID全文期刊库等;查询与药学有关的文献,可选SciFinder Scholar、EMBase等;查询药物的基本信息可检索World Standard Drug Database(http://admin.safescript.com/drugcgic.cgi/START)和Prescribing Reference(http://www.prescribingreference.com)等。若要进行引文检索,可查Web of Science、中国期刊全文数据库。

要做到正确选择数据库,除了应考虑数据库的学科范围和语种外,还应考虑数据库的类型、数据库的知名度、数据库收录文献的年限、文献类型及收录规模、收费情况等。若追求查全,应多选几个相关的数据库,或使用跨库检索。正确选择数据库,可求助专家同行的指点,但更需实践经验的积累。

3.选择检索途径 常用的检索途径是自由词检索、主题词检索、分类检索和默认检索。对有主题词检索途径的数据库,尽可能选主题词检索,因为主题词检索具有诸多优点,如紧扣文章中心、能够网罗同义词、可用副主题词限定、可进行下位词扩检。自由词检索也有其自身长处,如有些比较新的概念尚未被主题词表收录而只能用自由词检索,用自由词检索可得到那些新入库尚未标引主题词的文献记录。用分类检索可以满足族性检索的要求,但通常情况下是用分类检索和自由词检索两者结合检索。著者检索简明快捷、方便准确,可作为主题检索途径的补充。在进行引文检索时不要与著者检索相混淆,前者是查某一著者的文献被人引用的文献,后者是查某一著者撰写发表的文献。

4.确定检索词 确定检索词是整个检索过程中较难把握并容易出错的环节。拟定的检索词必须与记录中的标识一致才能检索命中。用主题词检索时,要多利用主题词表,要考虑主题词有没有倒置形式,要注意副主题词的适用范围,要考虑是否用下位主题词扩展检索。用自由词检索时,要注意著者可能采用不同的术语表达同一概念,还要考虑词与词之间的邻近位置。在不同的数据库中查同一主题的文献,所用检索词可能会有所不同。唯有熟悉数据库中的主题词表和分类体系,勤查多读,不断积累专业词汇和提高拼写水平,才能减少检索选词中的差错。

5.构筑检索提问式并作检索操作 构筑检索提问式就是用逻辑算符或位置算符将检索词连接起来,形成一个复合检索式提交给检索系统,这多用于部分数据库的高级检索之中。在一般检索中,一个复合检索提问式通常要分解成几次检索,期间可用“二次检索”或“在结果中检索”将前后几次检索进行“逻辑与”等的运算。在检索过程中按需要,可对文献年份、文献类型、语种、研究对象等进行限制检索。

6.调整检索策略 对检索返回的结果若不满意或发现有更合适的检索词未被使用,应进行检索策略的调整。检索策略调整包括调整数据库、调整检索途径、调整检索词,甚至调整逻辑算符和位置算符号等。检索策略的调整有查全和查准两个不同方向。

当检出文献量小于期望时,试用以下方法来扩大检索范围:删除某个用and连接的不重要的检索词;增加用or连接的检索词;位置算符放宽;检索词后用截词符;多用几个副主题词甚至选用所有副主题词;用下位主题词扩检;用一个字段检索改为用多个默认的字段检索;选择全文检索;从在某个分类类目中输词检索改为在所有分类类目中输词检索;用著者检索进行检索补充;多查几个数据库;进行跨库检索。

当检出文献过多,且其中一部分文献并非真正需要时,试用以下方法缩小检索范围:增加用and连接的检索词,或用“二次检索”;增加用not连接的检索词;用特定的副主题词进行限定;用字段限定检索,如标题词检索、主要主题词检索、加权检索等;进行文献类型、语种、重要期刊、临床核心期刊、年份等的检索限定;进入更专指的分类类目中输词检索;模糊检索改为精确检索。

7.输出检索结果 在输出检索结果之前,可对需要的记录加标记(mark record,check box),也可对所有的记录打上输出标记。

检索结果的输出形式有打印、下载、发E-mail和输出到文献管理软件。在检索输出的操作过程中,通常要选择输出的字段。题名、著者、文献来源和文摘字段是输出常选的字段。题录数据库或文摘数据库的输出过程中若有记录排序选择,建议按文献来源排序(sort by source),这便于获取原文时对期刊名称的核对查找。全文的输出只限于逐篇下载或逐章节下载,原因之一是为避免批量非法下载。下载后的全文若打不开,要检查计算机内是否已装有与所下载全文格式一致的全文阅读器。

8.获取原始文献 从题录数据库或文摘数据库中得到的检索结果只有少数可能有全文链接,大多数文献还须进一步获取原文。获取原文的途径有:到本单位本地区图书馆复印或阅读印刷型文献,向图书馆申请文献传递服务,网上搜寻免费电子期刊,到电子全文数据库中检索,利用“电子期刊导航系统”或SFX之类的全文链接服务进行检索,通过E-mail向作者索取原文。

9.创建文献跟踪服务 一次再完美的检索也无法获得未来入库的文献。要跟踪同一专题文献,传统的做法是每隔一段时间到相同的数据库中重复检索。这样做的缺点一是费时,二是部分检索结果会与上次检索的重复。目前部分数据库提供的“定题跟踪服务”弥补了以上缺陷。创建文献跟踪服务的步骤大致是:注册登录数据库,保存检索历史,选择Send Me E-mail Alerts之类的功能,选择文献自动发送的时间间隔。创建文献跟踪服务后,用户的电子邮箱将定期获得某一数据库中指定专题的最新文献。同样,通过创建“引文跟踪服务”,用户同样会自动收到新入库的指定文献的引用文献(详见第三章第二节)。

五、计算机检索技术

计算机检索的优点之一是检索灵活,可以运用不同的检索技术构筑起不同的检索提问,从而满足文献查全与查准的不同要求。计算机检索的主要技术有以下几种。

1.布尔逻辑检索 布尔逻辑检索是用英国数学家乔治·布尔提出的3个逻辑算符(Boolean operators)and、or、not进行检索。

and称为“逻辑与”,表示“相交”关系,可用来缩小检索范围。检索式A and B表示要检索既含有检索词A,又含有检索词B的文献记录,即同时要满足A、B两个条件。有的数据库用“*”表示“逻辑与”。

or称为“逻辑或”,表示“并列”关系,可用来扩大检索范围。检索式A or B表示检索仅含有检索词A或仅含有检索词B的文献记录,即只要满足A或B中的一个条件即可。有的数据库用“+”表示“逻辑或”。

not称为“逻辑非”,表示“排斥”关系。检索式A not B表示只检索含有A但不含B的文献记录,即把既含A又含B的记录排斥在检索结果之外。运算符not要慎用,因为它容易造成漏检。例如,用检索式“胃癌not肝癌”检索,会把同时出现“胃癌”和“肝癌”的记录排斥在外。有的数据库用“-”表示“逻辑非”,也有的用and not。

在3个布尔逻辑算符中,not优先运算,and其次运算,or最后运算,这一点与数学中“先乘除后加减”的规则一样。如果要改变运算次序,用括号来表示括号内的逻辑算符先运算。

例如,检索式“甲肝and婴儿or乙肝and婴儿”表示检索“婴儿患甲型肝炎或者乙型肝炎”方面的记录。为避免检索词重复,该检索式可简化成:(甲肝or乙肝)and婴儿,但不能写成“甲肝or乙肝and婴儿”,因为这样会误将含有甲肝的所有记录都检索出来。又如,检索式“(甲肝or乙肝)and(婴儿or儿童)”表示检索“婴儿或者儿童患甲肝或者乙肝”方面的记录。这比以上检索式多检出“儿童患甲肝或乙肝”的文献。

2.邻近检索 邻近检索又称位置算符检索(proximity searching,positional searching,adjacent searching),用于规定命中的检索词在记录中的间隔距离。邻近检索适用于自由词检索。不同检索系统的位置算符不尽相同,常见的位置算符有near,N,W,adj等。

例如,near表示左右两个检索词出现在同一句句子中(Web of Knowledge中用same表示),near1表示左右两个检索词紧相邻,near2表示左右两个检索词之间可以有一个单词或没有单词,依此类推。用检索式tongue near1base可以检索到含有tongue base(舌根)的记录,但检索不到含有base of tongue和base of the tongue的记录。要检索到后两者的记录,应当用near3处理。

若用逻辑与and连接tongue和base会造成明显的误检,因为检索结果中可能出现以下情况:在文摘的第一句句子中出现tongue、第五句句子中出现base。邻近检索弥补了“and”易误检的缺陷,但并非所有数据库都有邻近算符。

使用搜索引擎等进行的词组检索也属于邻近检索。词组检索又称短语检索(phrase search),通常用双引号将词组括起,表示一个词组中的单词紧相邻。

3.截词检索 在英语中,有不少含义相同或相近的词其词干相同,词尾不同。为了查全,虽可用运算符or相连接,但这样增加了键盘的操作,且同根词未必都能记住。截词符(truncation)的运用,简化了这一问题。常用的截词符有“*”和“?”。

*称为“无限截词”或“前方一致”,代表任何数量的字符,用来查相同词根的所有词。例如,输入immun*,可一次性查出含有immun、immune、immunal、immunity、immunology、immunization、immunizations的记录。

?为“有限截词”,表示一个字符或零个字符。例如,输入computer???来检索,可以查到含有computer,computers,computering,computerize的记录,但对含有computerization的记录检索无效。用pe?diatrics检索,可检索到含有pediatrics和peadiatrics的记录。

不同数据库所用的截词符会有所不同,如在OVID系统中用$表示截词。

4.字段检索 字段检索是指对指定的一个或多个字段进行检索,目的是为了提高查准。字段检索的操作形式有两种:①在字段下拉菜单中选择字段后再输词检索;②一次性输入字段标识符和检索词。后者的例子有:ti=hepatoma表示检索标题字段中含有hepatom的文献,smith bt[au]表示检索Smith BT发表的文献。

5.限制检索 限制检索(limit search)是一种辅助的检索技术,意在将检索结果限制在一定范围之内。常见的限制项有:publication year(文献年份)、article type(文献类型)、language(语种)、full text only(仅要有全文的记录)、human or animal(选择研究对象)等。

6.精确检索与模糊检索 精确检索表示完全匹配,模糊检索表示含有。精确检索与模糊检索多用于关键词和作者等字段的检索。例如在中国期刊全文数据库中,选用“精确”在关键词字段中检索“计算机”方面的文献,只检索出关键词为“计算机”的文献,而选“模糊”能检索到关键词为“计算机”、“计算机软件”、“计算机管理”等更多的文献。

7.扩展检索 扩展检索表现为一词输入、多词命中,其基本原理是通过同义词表、主题词表的树形结构或分类索引,系统自动或半自动地将所输入的检索词转换成多个检索词进行逻辑或(or)运算。例如,中文科技期刊数据库中的“同义词检索”是一种半自动的扩展检索,PubMed中的MeSH Database提供下位主题词的自动扩展检索,中国生物医学文献数据库的分类检索提供下位分类号半自动检索。

8.智能检索 智能检索是检索系统利用主题词表、同义词词典等来改善用户的输入,以达到查全的一种检索技术。例如输入“计算机”,检索系统自动用“电脑”、“微机”等参与检索,扩大了检索结果,提高了检索质量。

9.跨库检索 跨库检索(cross search)是指通过一次性的检索操作,在统一的检索平台上同时检索多个数据库中的记录。跨库检索是数据库品种日益增多的产物,它省却了逐一登录和检索多个数据库的繁琐。具有跨库检索功能的平台有Web of Knowledge、MetaLib、中国知网等。

六、检索式编写举例

检索式又称检索提问式(query),是信息用户向数据库表达检索意图的句式。检索提问式分简单提问式和复合提问式。简单提问式只含一个检索词,只表达一个简单的检索概念,例如:sars,ti=hepatitis b virus,舒喘灵,au=吴阶平。复合提问式含有两个或两个以上的检索词,用布尔算符或位置算符相连接。

【例1】 acute near3pancreatitis and(mice or mouse)(急性胰腺炎的小鼠实验)。

“胰腺炎”之间用位置算符near3是因为其间有可能出现以下词汇:necrotizing(坏死型),biliary(胆汁型),gallstone(结石型),severe(严重型),and chronic(及慢性)等词汇。mice是mouse(小鼠)的复数。

【例2】 (renal calculi or kidney calculi or kidney stone*)and(surgery or operation)(肾结石的手术治疗)。

kindey stone后用截词符表示同时需要检索含有kidney stones的文献记录。为了使文献查全,本检索式中列出了“肾结石”的3个同义词和“手术治疗”的两个同义词。在无主题词的数据库中,提问式中的检索词只检索命中与著者用词完全一致的文献记录,因此要尽量列全同义词,用逻辑或连接。对于有主题词字段的数据库,不必如此。例如在PubMed中检索,提问式可写成:kidney calculi/surgery。

其中,kidney calculi是PubMed的主题词,surgery是副主题词。用主题词可以检索命中含有同义词的文献记录。副主题词须紧跟在主题词后面,不能用and连接,否则会查到虚假组配的文献。

【例3】 asthma/chemically induced and aspirin/adverse effects(阿司匹林诱发哮喘)。

本例是检索PubMed数据库的检索式。其中,asthma(哮喘)和aspirin(阿司匹林)是主题词,chemically induced(化学诱导)和adverse effects(不良反应)是副主题词。

主题词和副主题词在不同的数据库中未必相同。例如在数据库EMBase中,“阿司匹林”的主题词是acetylsalicylic acid,药物“不良反应”的副主题词是adverse drug reaction(用于药物主题词后面)和side effect(用于疾病主题词后面)。

【例4】 检索“小儿心脏瓣膜疾病诊断”方面的文献。

心脏瓣膜疾病属于某一类疾病,具体的疾病名有主动脉瓣关闭不全、主动脉瓣狭窄、二尖瓣闭锁不全、二尖瓣狭窄等至少20余种。该检索课题拟定的检索式应为:(心脏瓣膜疾病or主动脉瓣关闭不全or主动脉瓣狭窄……)and诊断and(小儿or儿童)。因涉及主题词的下位词扩检,检索应当分成几步进行。

若在CBM中检索,先通过“主题词检索”进行“心脏瓣膜疾病”的下位词扩检,副主题词选“诊断”(系统默认用“诊断”及其下位副主题词“超声检查”、“放射摄影术”、“放射性核素成像”进行检索),在检索返回“心脏瓣膜疾病的诊断”文献后,在“基本检索”的“缺省”状态下输入儿童,然后选择“二次检索”完成该课题的检索。

在中国期刊全文数据库中检索该课题,操作有所不同。在分类(总目录)中先后选医药卫生→心血管系统疾病→心脏疾病→去除非“心瓣膜疾病”的勾选,在检索提问框内输入诊断,检索项可选默认的“主题”(对题名、关键词、文摘等字段检索),在检索返回的页面上,点击检索提问框前的+,在原有的和增加的检索提问框内分别输入儿童和小儿,两者之间的运算符选“或”,勾选“在结果中检索”,点击检索按钮,完成检索。

中国期刊全文数据库因没有主题词表,所以无法进行下位主题词扩检,但可利用分类中的“心脏瓣膜疾病”类目来避免输入一长串“心脏瓣膜疾病”的检索词。CBM中儿童为主题词,因此不必考虑其同义词。中国期刊全文数据库不设主题词,因此同时用儿童和小儿进行逻辑或检索。

习题

1.自由词检索与主题词检索有什么区别?

2.引文检索有哪些作用?

3.力求文献查全的方法有哪些?

(夏知平)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈