首页 理论教育 计算机信息检索的原理

计算机信息检索的原理

时间:2022-02-28 理论教育 版权反馈
【摘要】:计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。由此可知,信息检索的本质就是读者(用户)的信息需求与存储在信息集合体中的信息进行比较和选择,即匹配的过程,也就是对一定信息集合体(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)相关的信息。

3.3 计算机信息检索的原理

计算机信息检索是指利用计算机存储和检索信息。具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。为实现计算机信息检索,必须事先将大量的原始信息加工处理,以数据库的形式存储在计算机中,所以计算机信息检索广义上包括信息的存储和检索两个方面。

计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工,具体做法是将收集到的原始信息进行主题概念分析,根据一定的检索语言抽取出能反映信息内容的主题词、关键词、分类号以及能反映信息外部特征的作者、题名、出版事项等,分别对这些内容进行标识或者编写出信息的内容摘要。然后再把这些经过“前期处理”的信息按一定格式输入计算机存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质上,完成信息的加工存储过程。

计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在应用程序的控制下进行调整逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。计算机信息检索原理如图3-1所示。

img8

图3-1 计算机信息检索系统原理示意图

由此可知,信息检索的本质就是读者(用户)的信息需求与存储在信息集合体中的信息进行比较和选择,即匹配(Match)的过程,也就是对一定信息集合体(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)相关的信息。存储是为了检索,没有存储就无所谓检索。信息的存储与检索存在着相辅相成、互相依存的辩证关系。可以看到,在用户输入检索词后,计算机信息检索系统主要操作的对象是顺排文档和倒排文档。

在用户输入单个检索词的情况下,例如,输入“软件”一词时,系统首先查找索引词典倒排文档,并在显示器上响应,给出含有“软件”一词的记录数,系统同时将这些记录的地址调入内存。在系统接到用户显示命中记录的指令后,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内容。

在用户输入两个以上检索词的情况下,计算机信息检索系统除了进行上述操作以外,还要对记录号集合之间进行逻辑运算,包括逻辑“与”、“或”、“非”运算。需要指出的是,用户在检索过程中,可能发生以下三种情况:

*对所输入的检索词,系统响应为“0”,即检索词与索引词典中标识词不匹配;

*对所输入的检索词,系统响应的篇数或者太多,或者太少;

*对所输入的检索词,系统最后给出的记录并不合乎课题要求。

对以上三种情况,可以通过换用其他数据库或者重新输入检索词,或者调整检索策略的办法予以解决。数据库读取过程如图3-2所示。

img9

图3-2 数据库数据读取过程示意图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈