首页 理论教育 计算机信息检索特点和发展阶段

计算机信息检索特点和发展阶段

时间:2022-10-13 理论教育 版权反馈
【摘要】:可及时获得最新信息。与手工信息检索相比,计算机信息检索的本质没有发生改变,变化的只是检索手段、检索对象、信息的表示方式、存储信息的结构和匹配方法。从那时起随着计算机技术、通信技术和检索技术的发展,计算机信息检索经历了下述4个主要的发展阶段。

图3.4 超文本系统的结构模型

在超文本中,最小的知识单元是结点(nodes),知识单元用链路(links)相联结。用户界面是窗口,通过鼠标器单击窗口文本中的醒目的关键词而自动激活所有有关的资料。

人们在阅读文献时,可能会只对某些章节感兴趣,可能需要查证某个术语,也可能需要参考对同一个问题的不同说法,等等,这时人的思维总是在几个不同的思路上同时展开,沿着这些思路并行延伸或摒弃某些结点。这一过程在相互依赖和制约的过程中反复进行,最终得到明确的有价值的结论。这一过程是非线性的。但对于现代的计算机系统,大多数是通过目录的形式组织文件,信息以字符文本方式作线性存储。这样就使非线性的思维方式与线性的信息组织之间构成矛盾,严重妨碍了人们接受、理解与重组所需信息的能力。

Ted Nelson是第一个提出超文本概念的人,他说:

超文本是自然语言文本信息与计算机动态显示非线性信息能力的结合。

被誉为“HTTP之父”的Ted Nelson,1937年出生于美国纽约,1958年获得斯沃斯莫尔学院哲学学士;1960年获得哈佛大学社会学硕士;1966年在Project Xanadu基础上创立了专注于电脑外围设备、电脑包等产品设计制造的HTTP公司。通过多年发展,HTTP公司在全球网络交互设备市场取得绝对主导地位;此外在电脑、笔记本、iPad类平板电脑、手机等产品的配件和电脑包等领域也居于领导地位。2002年Ted Nelson从HTTP公司退休,仅保留董事长一职。

1960年他构思了一种通过计算机处理文本信息的方法,并称之为超文本(hypertext),这成为了HTTP超文本传输协议标准架构的发展根基。时过3年,年仅26岁的Ted Nelson即构思了现代互联网应用的深层HTTP基础架构。

Ted Nelson组织协调万维网协会(World Wide Web Consortium)和Internet工作小组(Internet Engineering Task Force)共同合作研究,最终发布了一系列的RFC(Request For Comments,是一系列以编号排定的互联网协议和标准的文件),其中最著名的就是RFC 2616。RFC 2616定义了HTTP协议中人们今天普遍使用的一个版本——HTTP 1.1。由于Ted Nelson对HTTP技术的发展做出突破性历史贡献,他被称为“HTTP之父”。

(6)超媒体

几年前曾有过其他一些文本的说法,如复合文本,它就是多媒体文本的早期说法。此外,还有一种“全文本”的说法,如武汉大学的全文本检索系统。它指可检索文献的篇名、文摘等凡是处于计算机文档中的任何词,并非是能对文献的原文全文进行逐字搜索。另外有一种用于古典名著中词频统计的全文本搜索系统,这就是像通常的字处理软件中查找某个特定字符那样的搜索(实质上还是几何定位方法)。

超媒体(Hypermedia)文本是指使用超文本技术实现多媒体信息的非线性组织,因此,超媒体就是多媒体加上超文本。或者说用超文本技术管理、组织多媒体信息的文本技术。

在超文本技术中,结点和链路都各有多种类型。但可以说,如果结点是纯粹的关键词,则是超文本系统,典型的例子是Gopher系统。它完全是菜单引导作主链,关键词的链路实现跳跃的信息浏览系统。但在超文本的非线性链路中,如果大量的结点并非单纯的关键词,还包括图形、图像、声音,小到一个图标,大到屏幕上一块大的区域(如同儿童学英语的光盘,当小白兔跳进花园中,就开始学习单词)都成为网路中的结点,这就是超媒体了。

超媒体技术将多媒体技术的生动表现形式和超文本技术自由的、符合人脑思维习惯的交流方式融为一体,为信息管理领域带来革命性的变化。由于超文本和超媒体在非线性存取方面并无本质上的区别,因此,现在网页上尽管大多是超媒体信息,但人们仍然愿意称其为超文本,而且人们对此也多是见怪不惊。

3.3 计算机信息检索概述

3.3.1 计算机信息检索的特点

计算机信息检索(简称机检)克服了手工检索(简称手检)的弊端,使信息检索不仅能跨越时空,在短时间内查阅大型数据库,还能快速地对几十年前的文献资料进行回溯检索。而且大多数联机检索或网络检索系统的数据库更新速度非常快,通过计算机信息检索可以得到更多更新的信息。

与手工信息检索相比,计算机信息检索的特点如下:

①速度快,效率高。仅几秒钟就可从成千上万条记录中找出所需信息。

②检索范围广。可迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都可以成为信息源。

③检索不受时空的限制。只要拥有相应的软件和硬件设备,就可在任何地方借助光盘和通信网络查询所需信息。

④由于数据更新快。可及时获得最新信息。

⑤检索辅助功能完善、使用方便。检索软件可采用菜单驱动,几乎所有检索系统都有查询服务或提供操作演示盘,界面友好,检索结果的输出方式多种多样,并可按要求做排序、统计、绘图等加工。

与手工信息检索相比,计算机信息检索的本质没有发生改变,变化的只是检索手段、检索对象、信息的表示方式、存储信息的结构和匹配方法。计算机信息检索用能够识别的代码来表示信息,用便于快速存取的文档方式替代了查阅纸质载体索引、文摘的方式,搜索信息的方式由手工方式转变为机器自动匹配。它由原先对表达概念的语词符号的比较变为没有内涵的字符串的匹配和逻辑运算,将用户信息需求的字符串与计算机内存储的大量字符串进行比较和逻辑运算的过程。

在机检匹配中若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,并将命中的信息以屏幕显示或打印的方式输出提交给用户。

3.3.2 计算机信息检索的发展阶段

从计算机信息检索的发展历史来看,美国海军军械试验中心(NOTS)1954年利用IBM-701大型计算机建立的科技文献检索系统应是世界上第一个计算机信息检索系统。从那时起随着计算机技术、通信技术和检索技术的发展,计算机信息检索经历了下述4个主要的发展阶段。

(1)脱机检索阶段

此阶段是从20世纪50年代中期到20世纪60年代中期。进入20世纪50年代后,在计算机应用领域穿孔卡片、穿孔纸带、数据录入技术及设备相继出现,以它们作为存储文摘、检索词和查询提问式的媒介,使得计算机开始在文献检索领域中得到应用。

这一阶段主要以脱机检索的方式开展检索服务,其特点是不对一个检索提问立即作出回答,而是将大批提问式汇集后集中进行处理,且进行处理的时间较长,人机不能对话,因此,检索效率往往不够理想

(2)联机检索阶段

此阶段是从20世纪60年代中期到20世纪70年代初。由于计算机分时技术的发展、通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可通过检索终端设备与检索系统中心计算机进行人机对话,从而实现对远距离之外的数据库进行检索的目的,即实现了联机信息检索。

这个时期,计算机处理功能的加强、数据存储容量的扩大和磁盘机的应用,为建立大型的文献数据库创造了条件。例如,美国的DIALOG系统(DIALOG对话系统)和ORBIT系统(书目情报分析联机检索系统)、BRS系统(存储和信息检索系统)、欧洲的ESA-IRS系统(欧洲航天局信息检索系统)等都是在此时期开始研制并逐步发展起来的。

(3)光盘检索阶段

20世纪80年代中后期出现了光盘数据库系统,CD-ROM技术利用激光束在光盘上刻写记录并读取数据库信息,用户以较低的价格购买或租用光盘,不受时间限制在带有光盘驱动器的计算机上实现信息检索。20世纪80年代末出现了以光盘塔和局域网技术为核心的光盘网络,它使多个用户能同时检索同一大型数据库,共享信息资源,检索效率得到了很大的提高。

(4)网络检索阶段

此阶段是从20世纪70年代初到现在。由于电话网、电传网、公共数据通信网都可为信息检索传输数据,特别是卫星通信技术的应用,使通信网络更加现代化,也使信息检索系统更加国际化,信息用户可借助国际通信网络直接与检索系统联机,从而实现不受地域限制的国际联机信息检索。

现代通信技术的发展给联机检索提供了越来越广阔的空间,人们的检索目标不仅是局限于与某台主机连接进行联机检索,现在的电子商务、电子政务、政府上网工程、图书馆、信息服务机构、科研机构等政府和企业或个人信息的网络化使网络信息成为现代信息获取的主渠道。这些上网信息构成极其丰富的网络信息资源。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈