首页 理论教育 医学文献信息检索策略与检索技术

医学文献信息检索策略与检索技术

时间:2022-04-12 理论教育 版权反馈
【摘要】:检索策略是否周密、恰当,直接影响到检索的效率和成败。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。为了避免出现检索误差,在进行字段检索前,应事先参阅系统及有关数据库的说明。原文检索可以弥补布尔逻辑检索、截词检索的不足。

(一)检索策略

要从系统中检索出符合用户需求的信息,必须要有一个合适的检索策略。检索策略是否周密、恰当,直接影响到检索的效率和成败。寻找最佳的检索策略不仅是信息检索中的一个重要目标,而且是计算机信息检索中必然遇到的问题。在一定的数据库质量与系统功能的前提下,检索策略的好坏已成为决定检索效率高低的一个重要因素。

检索策略,可从广义和狭义两个方面理解。广义的检索策略是指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。对于一个具体的检索课题来说,要达到什么目标、要求什么范围、选择什么检索系统、通过什么检索途径、选择什么检索标识和逻辑组配方法以及需要哪些反馈调整措施等一系列问题的考虑和具体查询步骤的安排,都应属于检索策略的范围。狭义的检索策略主要是指确定检索词,并用一定的算符将检索词连接起来构成检索表达式的过程。关于检索词的选择将在下一节检索语言中详细介绍。

(二)检索技术

1.传统检索技术

(1)布尔逻辑检索:利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有逻辑“或”(OR)、逻辑“与”(AND)、逻辑“非”(NOT)。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

逻辑“与”(AND):常用符号“*”表示,相当于英语中的“both…and…”。假设检索词A和检索词B,用AND连接两词则为:A and B或A*B,表示的检索意图是同时含有检索词A和检索词B的文献为命中文献。用该算符连接检索词,能起到缩小检索范围、提高检准率的作用。

逻辑“或”(OR):常用符号“+”来表示,相当于英语中的“either…or…”。假设检索词A和检索词B,用OR连接两词则为:A or B或A+B,表示含有检索词A的文献命中,包含检索词B的文献命中,同时包含检索词A和B的文献也命中。用该算符连接检索词,能起到扩大检索范围的作用,提高查全率

逻辑“非”(NOT):常用符号“-”来表示,假设检索词A和检索词B,用NOT连接两词则为:A not B或A-B,表示含有检索词A但不含有检索词B的文献为命中文献。该算符能排除不希望出现的检索词,也能起到缩小检索范围、提高检准率的作用。

“异或”逻辑(XOR或EOR):表示含有检索词A的文献命中,含有检索词B的文献命中,但同时含有检索词A和B的文献不命中。目前多数系统并不支持该算符,因为该算符的运算结果可通过其他算符的组配达到。

检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。因此,在运用布尔检索时,要首先了解系统对布尔逻辑算符及其运算次序的规定。

(2)截词检索:就是把检索词截断,取其中的一部分片段,再加上截词符号一起输入检索,系统按照词的片段与数据库里索引词对比匹配,凡是包含这些词的片段的文献均被检索出来。按截断的位置来分,截词有后截断、前截断、中截断三种。

不同的系统所用的截词符也不同,常用的有?、$、*等,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

①后截断,前方一致。如:comput?表示computer,computers,computing等。

②前截断,后方一致。如:?computer表示minicomputer,microcomputer等。

③中截断,中间一致。如:?comput?表示minicomputer,microcomputers等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

(3)限制检索:在检索系统中,当检索词及其逻辑关系都已确定时,通常有一些缩小或约束检索结果的方法,称为限制检索。限制检索的方式很多,在不同的检索系统中实现的方式也不尽相同。其中最常用的限制检索是字段限制检索。在数据库中,限制检索可用:“检索词IN字段标识”,或“字段标识=检索词”的方式来实现,但后者通常是适用于对限定字段做精确的查找。另外,值得注意的是,各个检索系统所设立的可检字段是互不相同的,即使同一个字段,也可能采用不同的字段代码。为了避免出现检索误差,在进行字段检索前,应事先参阅系统及有关数据库的说明。

(4)原文检索:“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。可以说是一种不依赖叙词表而直接使用自由词的检索方法。

原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。其运算符可以通称为位置运算符。从RECON、ORBIT和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:①记录级检索,要求检索词出现在同一记录中;②字段级检索,要求检索词出现在同一字段中;③子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;④词位置检索,要求检索词之间的相互位置满足某些条件。

原文检索可以弥补布尔逻辑检索、截词检索的不足。运用原文检索,可以增强选词的灵活性,部分地解决布尔逻辑检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。

(5)加权检索:是某些检索系统中提供的一种定量检索技术。加权检索同布尔逻辑检索、截词检索一样,也是文献检索的一种基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系;而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索的。而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

(6)聚类检索:是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类检索技术。根据不同聚类的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。

聚类检索的出现,为文献检索尤其是计算机信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式有可能在未来的信息检索中大有用武之地。

(7)扩展检索:是指将某一主题词及其下位主题词自动经逻辑“或”合并给出结果。是含有下位词的主题词所特有的,用于检索范围较广或很广的课题。例如,要求检索有关心脏瓣膜疾病的文献,如用“心脏瓣膜疾病”这个主题词进行检索则只能查出用这个主题词标引的文献,若进行扩展检索,则除查出上述文献外,凡是有关心脏瓣膜疾病所有各级下位主题词标引的文献均可一并查出。不仅扩大了检索范围,而且免去了必须逐个输入其下位词的繁琐程序。

2.现代检索技术

(1)全文检索:以全文数据库存储为基础。所谓全文数据库即是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。而且,全文检索系统还必须对全文数据库进行词(字)、句、段落等更深层次的编辑、加工,同时,允许用户采用自然语言表达,借助截词、邻词等匹配方法直接查阅文献原文信息。

全文检索系统的基本问题是怎么处理全文本数据,即如何在计算机中存储表示各个知识项。通常进行的“全文分割处理”或“电子文本格式化”就属于这一范畴,这涉及全文检索系统在概念层次上的构建模型。目前的构建模型包括:①关系模型。用于处理结构化、线性的数据,表示实体与实体之间的联系。它采用表格表示数据,表达模型简单,易于处理。由此构建的数据库即是关系型数据库。②层次模型。全文本文献有着复杂的层次结构体系。如在一篇文章中的每个标题之下可以派生出若干子标题,每个标题又有多个观点等,常见的自然段划分就是层次结构最明显的反映。全文数据适合于用层次模型描述,可以将层次模型组织的全文检索系统的数据结构分为:逻辑文档、文本文档、倒排文档。③面向对象的模型。该模型支持不同层次的数据抽象概念化,可将特定数据模型或类型的所有操作集中起来,增加数据库的模块化程度,易于理解一类对象的共同性质;支持继承性,即一个类可以成为另一个类的子类,因而不仅继承了超类的所有特性,同时可以定义自己的特性,由此,方便地形成树型结构的层次体系;支持多继承性,即允许对象属于不同的类,即任意类的交叉;允许对象间通过定义适当的过程和消息来表达相互间的复杂关系。

可见,对象模型是一种以自然的方式再现客观世界中事物的逻辑关系,直观显示文献数据库极为复杂的层次结构体现,目前面向对象的方法正被用于超文本系统的研制中。只有借助超文本技术,才能研制出集关系模型、层次模型、对象模型的一体化的全文检索系统。

(2)超文本检索:超文本技术既是一种信息单元的组织和检索技术,也是一种软件设计技术,它利用计算机技术、通信技术、知识表达技术、多媒体技术等,将包含文字、图像、声音、视频等电子信息按其相互之间的关联性和可能出现的连续性进行非线性编排,使得只要两个信息单元之间存在着直接或间接的关联,就可以从其中一个顺着关系链到达另一个信息单元。

超文本技术与全文检索和布尔逻辑检索相比,具有如下几个特点:①非线性的组织结构;②以信息单元为检索对象;③体现了信息层次关系;④交互更加友好;⑤信息内容丰富多样;⑥避免了检索语言的复杂性。

超文本的主要功能在于对信息的表示、组织、浏览以及检索。这些功能的实现主要取决于超文本的组织结构,它是在文本中定义了大量超链使其变成了非线性结构。信息的表示是通过超文本结构把图形或文本、知识概念、组织结构以及知识概念间的关系表示出来。浏览与检索型的超文本强调信息间的充分关联,注重信息的分级和聚类,为用户选择信息源提供导航和检索范围,以保证在浏览时快速选准目标,检索时缩小检索范围。

(3)多媒体检索:多媒体信息检索技术是把文字、声音、图像、图形等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。

目前有基于文本和基于内容特征的两种多媒体信息检索方式。由于计算机技术及其他相关技术的限制,早期的多媒体信息检索是基于文本方式的。当因特网逐渐发展起来以后,这种技术被直接引入到网络的多媒体信息检索领域。这种技术的特点是以关键词的形式来反映多媒体物理特征和内容特征,并对抽取出的关键词按某种顺序进行著录或标引,建立类似于文本文献的索引数据库,这样,多媒体信息检索实际上就转化成为对多媒体进行描述的关键词的检索。目前常用的关键词索引字段有:①文件名或目录名;②多媒体标题、周围文本信息或解说文字;③其他,如Web页的页标题。基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据中进行检索。目前,基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。

(4)分布式检索:随着计算机技术的发展,继从单机处理到C/S(客户端/服务器)双层结构的发展之后,计算机应用体系结构正在经历从C/S双层结构到分布式的多层结构方向发展。这种结构是在C/S结构和分布式技术的基础上,将业务逻辑从客户端分离出来移到一个或多个中间层,通过对中间层的有效组织和管理,采用负载平衡、动态伸缩和标准接口等技术,将客户机与服务器高效地组合在一起。目前,这种分布式多层结构已经广泛地应用在数据库系统的研究与开发中,在网络环境下应用分布式技术解决海量信息的检索已经成为人们研究的重点。

集中式(centralized index)检索系统有很多局限性。首先,网络信息量呈指数增长,集中式的检索方法不能适应信息急剧增长的需要;其次,虽然目前的网络搜索引擎都在努力增加对网络信息的覆盖率,但要覆盖整个网络上的信息,在目前是不可能的;最后,检索系统之间通常没有分工协作,各自独立搜索和处理信息,造成大量重复工作和严重的带宽浪费,甚至网络阻塞。

分布式信息检索主要指在分布式的环境中,利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程。分布式环境指的是信息资源在物理上分布于各地,小到一个办公系统,大到跨越国家。这些分布式的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统。但是,不同的信息资源具有不同的数据库结构,即分布式的信息资源具有异构性的特点。

一个简单的分布式信息检索系统由多个信息库服务器和一个或多个代理处理器组成。目前一般采用多级代理的分布式信息检索系统。多级代理的分布式信息检索系统是由多个代理服务器组成检索系统,由一个总代理和若干个分代理组成。分布式环境下代理技术的检索功能包括:从用户或代理服务器接受提问;把接受的提问翻译成检索软件可识别的语言(检索提问表达式);确定哪些信息资源包含与提问式最相关的信息;利用提问式对确定的资源进行检索;收集相应的检索结果;对检索结果进行整理;把整理的结果提供给用户。目前主要的分布式检索模式包括:基于元搜索引擎的分布式信息检索、基于Z39.50的分布式信息检索、基于XML的分布式信息检索和基于Web服务的分布式信息检索

(5)跨语言检索:跨语言信息检索是指用户以一种语言提问,检出另一种或多种语言描述的相关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述的信息。这里的信息可以是文本信息也可以是其他形式的信息,目前研究最多的是跨语言文本信息检索和跨语言语音信息检索。

在跨语言检索中,提问所使用的语言通常称为源语言,一般是用户的母语;被检索文档所使用的语言称为目标语言,可以是用户不熟悉甚至完全陌生的语言。与跨语言检索相对应,提问式语言和文档语言相同的检索称为单语言检索(monolingual retrieval)。跨语言检索所需要的技术是计算机信息检索技术和机器翻译技术。

跨语言信息检索的实现方法包括提问式翻译法、文献翻译法、提问式-文献翻译法、不翻译法、提问式构造法和专有名词音译法

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈