首页 理论教育 现代化信息检索技术操作方法_教师如何培育信息

现代化信息检索技术操作方法_教师如何培育信息

时间:2022-07-02 理论教育 版权反馈
【摘要】:现代化信息检索技术操作方法_教师如何培育信息第四章 利用现代化技术获取信息文献信息量剧增是与信息社会化相伴随的必然现象。要解决庞大的信息量与人们对其特定需要之间的矛盾,非现代化信息技术莫属。传统的通过手工检索以获取信息的方式将逐渐被现代化信息技术所取代,这是世界趋势。联机检索技术是当前计算机运用于信息检索的一种主要方式。

现代化信息检索技术操作方法_教师如何培育信息

第四章 利用现代化技术获取信息

文献信息量剧增是与信息社会化相伴随的必然现象。要解决庞大的信息量与人们对其特定需要之间的矛盾,非现代化信息技术莫属。传统的通过手工检索以获取信息的方式将逐渐被现代化信息技术所取代,这是世界趋势。因此,掌握好利用现代化技术获取信息的技能,是每位教师跨入新世纪信息时代的入场券,并将成为衡量教师技能素质的重要指标。

第一节 现代化获取信息技术概述

一、联机检索技术

二战以后,信息量剧增的压力,迫使文献情报工作为更快、更准地提供信息寻求出路,于是,注意力便集中到检索工具问题上。这方面的研究导致了许多新器具、新技术的出现,电子计算机被用来编制检索工具和查寻信息,缩微技术的进步也给信息检索的发展带来了新的推动力。这一切都使信息检索摆脱传统的手工操作而逐步向机械化与自动化过渡。机械检索系统,光电检索系统,电子检索系统相继从试验阶段进入到实用阶段。特别是电子计算机的运用,取得了令人瞩目的进展,以至现在人们无论是作为一门学科还是一项工作,在涉及信息检索时,实际主要指的已是计算机信息检索。(www.guayunfan.com)

计算机在信息检索中的运用,从20世纪50年代中期开始至今,虽然只有四十年的历史,却已跨越了三个发展阶段。首先是脱机批处理检索阶段,其次是联机检索阶段,而现在,随着通信技术和计算机技术的进一步发展,又进入了网络化检索阶段。信息高速公路,Internet,NCFC(中国国家计算与网络设施)等已成为热门话题,所有这一切都为在更大范围内更快速地检索并获取信息提供了无比优越的条件。

联机检索技术是当前计算机运用于信息检索的一种主要方式。即使是信息高速公路,Internet或NCFC,也只是提供了一种更方便更快捷和更大范围检索的工具与设备。联机检索仍然是这些网络的核心技术原理。

1.联机检索服务功能与特点

计算机在信息检索中的应用,首先是脱机批处理方式,这种方式要求检索者直接在计算机旁检索,一般是把一批检索提问集中起来,定期地成批地在计算机上查找。它不需要远程终端设备,也不需要通讯网络,成本较低,技术条件要求不高。但却有难以克服的缺点,如地理上的障碍,用户与系统之间没有直接的交流等。为了克服这些缺点,于是产生了联机检索。

联机检索是用户在检索终端通过通讯网络与联机情报检索中心的中央计算机联机来检索情报信息。在联机检索中,用户与远程中央计算机相连,检索远程数据库内的信息,这几乎是同时的,直接的,不需委托,而且检索过程中是“人一机对话”式,可及时修改检索策略,及时游览,显示文献。联机情报检索因为有如上优点,因此发展很快,在很短的时间内经历了研究开发试验、地区性应用和国际联机三个阶段。20世纪70年代后联机情报检索随计算机、数据库通信网络技术发展而迅猛发展。现在仍方兴未艾。而运用联机检索获取信息首先应该明确了解联机检索的服务范围和特点。

(1)联机检索的服务功能

现在,世界范围的联机检索系统有很多。著名的如DIALOG。ESA/IRS,ORBIT,STN等,所有这些系统都提供如下服务功能:

①追溯检索(Rerospective Searching),简称RS。这种服务主要是帮助用户进行回溯检索,即查找过去某段时间中或过去某个时间至今的信息。这种服务可以使用户一次检索全面了解某一课题在某一段时间中的发展情况,对申请专利,课题开题,某一科研项目鉴定,撰写综合性论文及编制教材等非常有用。

一般联机系统中,为满足用户追溯检索要求,都设有年份限制功能。有的联机系统为使用户操作方便,把大型数据库按年份分成不同文档。例如,DIAL0G联机系统中的CA SEARCH数据库,按不同年份分成六个子文档。用户可据需要选用所需年份的相应文档检索,以节省机时费。

②定题服务(Selective Dissemination of Information,简称SDI)。这种服务是用户只需一次输入表示信息需求的检索策略,然后进行存贮,根据数据库更新周期,将存贮的检索策略进行周期性运行,检索出最新的文献资料,提供给用户。

该服务主要是及时了解某一专题的国外研究水平及发展动向,但这种服务费用较高。各大联机系统都有这种服务功能。目前,DIALOG与ESA/IRS已改成SAVE ALERT服务。

③联机订购原始文献。由于用户经过计算机联机检索一般都为二次文献,查找所需原始文献有时又往往受到馆藏不齐或国外文献邮寄较迟等原因的影响,对一些急需而又实用价值较高的文献,就需要通过检索终端,向联机情报检索系统申请订购。一些大型联机系统均有这种业务。用户通过终端向联机系统提出订购申请后,检索系统在规定时间内将用户申请转给数据库供应商,再由供应商邮寄给用户。例如,DIALOG联机系统的联机订购(DI—ALORDER)黄页就是数据库供应商的业务范围、地址等信息,可使用户在订购原始文献时与数据库供应商进行联系。

④光盘检索服务。光盘检索也是一种联机检索。它不仅可单独使用,还可与远程联机检索系统联用。有的联机系统为了便于用户使用和推销产品,把光盘数据结构、指令语言做成与远程联机情报检索一样,这样对用户熟悉联机检索系统非常有用,而且光盘服务费用大大低于联机检索费用。

光盘除可提供上述相同的追溯检索,定题服务外,还可进行整理,用于“自建库”,培训用户和做联机检索的预处理。

⑤电子邮件服务(E—mail)。一些大型联机检索系统都设有电子邮件服务。它允许用户发送电子信息到联机情报检索系统各部门和同一系统中各用户。随着中国的一些网络连入Internet,电子邮件在信息检索中会越来越显示其优势。

(2)联机检索的特点

联机检索作为一种现代化的检索手段,之所以发展迅速,主要因为它有如下特点:

①联机检索具有快、多、全的检索功能,是过去任何一种检索方式所不可比的。

所谓快,即它可在3~5分钟内检索一个或多个课题。

所谓多,即它可在3~5分钟内检索几十篇,几百篇,甚至几千篇文献。

所谓全,即它可在3~5分钟内检索一个或多个文档,对一个专题或交叉学科课题,在3~5分钟内可进行全面检索。

②实现信息资源共享。由于借助通信网络,用户可在自己办公室里通过计算机、通信设备就可查到本地区或远隔重洋的国外文献数据库中的情报信息。用户只要与情报检索系统签订合同,即可使用他们的数据库进行信息检索。而且用户自己也可建立数据库供他人使用,从而达到资源共享的目的。

③检索方便。随着人们情报知识的增长,对联机系统的不断熟悉和数据库的不断发展,通过联机情报检索查询,信息的查准率和查全率也不断提高,许多用户感到使用联机检索查找信息比手工方便得多。大家已感到联机检索在信息查找中是不可缺少的。目前,许多联机检索系统为增强竞争力,都加强了检索功能,数据库收录信息范围也不断扩大,从而大大方便了用户使用。

2.国外主要的联机系统简介

(1)DIALOG联机系统

美国DIALOG情报服务公司是当今世界最大的联机情报检索系统,总部设在美国加利福尼亚州旧金山附近的帕洛·阿尔托市,下属于Knight—Ridder公司,该系统从1972年起开始服务,到1993年5月,已有460个数据库,专业内容有社会科学、化学、物理、数学、医学、材料科学、时事、建筑学、教育、经济学、商业、公司、人文学等。数据库文献类型有期刊、会议录、图书、学位论文、进展中科技报告、政府文件、市场行情、统计数据等。

DIALOG数据库由数据库供应商提供,并以机读形式发DIALOG。DIALOG联机系统对每篇记录内容进行检索标引,提供索引和原文入藏。

目前,DIALOG数据库存有近3亿篇以上的记录。记录类型有文摘的文献型记录,公司、机构或个人的目录型记录,统计或金融情报的表格型记录,新闻或商情市场信息的全文型记录。此外,还有38种CD—ROM数据库。

DIALOG联机系统主机设在情报服务公司总部,计算机由运行DIALOG软件的中央处理机,通信部分,带有数据库和索引磁带、磁盘驱动器三部分组成。中央处理机由四个独立系统(A、B、C、D)组成。

DIALOG联机系统其他服务方式有:提供80多个数据库的KNOWLEDGE INDEX服务,提供商业和金融服务的DIALOG Business Connection的菜单驱动系统,提供医学、生物、科技、定期检索和联机订购原文等。系统检索功能强,操作灵活,查询一个课题一般花3~5分钟。而一个文档包括的年限多达几年、十几年、几十年,其贮存文献量多达几万篇、几十万篇,甚至几百万篇。该系统除星期天(美国东部时间)上午5点至下午3点之间停机外,每天工作24小时。目前,它已有九万二千多个用户,遍及世界86个国家的二百多个城市。1992年,DIALOG进入了开创20年商业服务的重要里程碑,成了世界联机工业的巨头。

(2)ESA/IRS联机系统

ESA/IRS(European Space Agenncy/Information Retrieval Service)称为欧洲空间组织情报检索系统,位于意大利首都罗马附近的拉斯卡蒂,是欧洲最大的联机情报检索中心,也是世界上大型的国际联机检索系统之一,仅次于美国的DIALOG和ORBIT联机系统。

该系统自1969年开始以NASA文档作试验性计算机检索以来,数据库数量和规模不断增加,学科范围不断扩大。至今,它已拥有124个数据库,近5000万篇文献,在世界各国有近4000多个终端用户。其数据库除有近1/3 与DIALOG的数据库重复外,特有的数据库有酸雨、铸造(BIIPAMCTIF,File 71)、原材料价格(PRICEDATA,File 46)、卫星遥感图像(LE—DA,File 13)、宇航及高技术软件(SPACESOFT,File69)。该系统每天工作20小时。

(3)ORBIT联机系统

文献目录信息的联机分时系统(简称ORBIT)原属美国系统发展公司(SDC),现属Pergamon出版公司,并与该出版公司的Infoline联机系统合并为一个系统,称为Pergamon ORBIT Infoline系统。总部设在美国加州洛杉矶附近的圣莫尼卡。

该系统拥有100多个数据库。其中有一小部分数据库与DI—ALOG相同。其数据库类型有书目型、数值型、事实型和全文型。ORBIT联机系统拥有的数据库在数量上不如DIALOG,但它有自己的特点,以化工、石油、生物化学、环境科学、医学、运动科学、安全科学等学科文献比较齐全而著称。它拥有SAF:数据库f汽车、飞机等交通工具),TULSA数据库(石油、天然气开采与勘探)等,这些都是该系统独有的数据库。数据库收录的文献类型与。DIAL0G相同。

(4)STN联机系统

STN联机系统于1986年开始正式使用,它比DIALOG晚14年,但打破了国际联机检索中独家经营的常规,开创了国际间几家合作的历史。

STN联机系统由北美哥伦布美国化学文摘社(CAS)和前西德卡尔斯鲁厄能源、物理、数学专业情报中心(FIZ Karlsruhe)及日本的国际化学学会(JAICI)三家合作建成。目前,已有112个数据库投入使用,其文献总量约为6000万篇。尚有相当一部分数据库正在创建中。

STN系统的数据库,其专业范围涉及化学、化工、数学、物理、能源、冶金、建筑、德国和美国专利以及国际专利、化工产品、厂商信息等。数据库有目录型、事实型、数值型和全文型四种。数据库部分除与DIALOG重复的以外,其特色数据库有化学物质结构图形数据库(REGISTRY),目录、图像、全文三结合的德国专利数据库(PATDPA),化学期刊论文全文数据库(JACS),以及CJAOAC、CJRSC、CJWILEY全文数据库。

另外,数据网络的电子服务有:

①材料特性数据网MPD Network,查找工程、设计和材料方面的文献,用菜单驱动操作,提供钢、铝合金塑料等材料信息。

②C13—NMR/IR:谱网络,可查到75000种化合物的102000种C13—NMR谱和15000种化合物的16000种红外谱。

③电子邮局服务。目前,STN联机系统的响应速度比DIALOG和ESA联机系统的响应速度要快,从而节省机时和检索费。其联机打印件邮寄一般也比其他系统来得快,一般只需5~7小时即可寄到用户。电子邮件功能可使用户与STN检索中心直接进行联系,用户也可用电子邮件发送信息。

BRS有46个数据库与DIALOG重复,其余为互相补充。BRS联机系统的产品信息数据库、工业标准和国家标准(STDS)、非官方标准信息库、军事和联邦规范标准(MISS)等具有自己的特色。

BRS可为用户提供简便的检索指令,并配有各种接口软件,大大方便了检索和使用,该系统每周一至周六为工作时间,工作140小时以上,服务方式多种多样,在晚间以一种便宜易学的启发式形式,为美国普通家庭用户提供联机检索服务。该系统联机检索服务的费用比其他系统便宜,就数据库使用而言,收费比相同的DIALOG通常低20%。该系统所有数据库均对我国开放,并采用美国国内最低标准对我国用户收费。

3.国内联机检索的进展

我国联机检索起步较晚,与国外相比大约落后10~15年,但从20世纪70年代末、80年代初以来发展较快。1979年由建工总局建筑研究院(现称中国建筑技术发展中心)情报所等单位在我国驻香港海外建筑工程公司设置了我国第一台国际联机情报检索终端,经香港大东电报局与美国DIALOG和ORBIT系统联机。1981年底,北方科技情报所与美国DIALOG联机系统直接联机。1982年9月冶金部、石油部、化工部等部委情报所在北京实现了DIALOG和ORBIT的直接联机。华东工学院在南京也设置了一台国际联机情报检索终端与DIALOG建立了联机检索业务。1983年10月中国科技情报所开始使用:300Bit速率的数传终端与ESA/IRS联机。同年年底上海交大用50Bit的电传终端与DIALOG联机。接着许多情报所和高校也纷纷建立国际联机检索终端。

迄今,已在全国50个城市建立了110个国际联机检索终端,与国外11个主要情报服务系统建立了联机情报检索业务,它们是美国的DIALOG、BRS、INFOLINF、ORBIT、DMS/DRI、意大利的ESA/IRS,德国的STN,加拿大的HARPS、卢森堡ECH0,奥地利WSR,瑞士DUN&Bradstreet,Data—Star。近几年来,国内联机服务系统发展也较快,还引进了CD—ROM光盘数据库。而随着NCFC等国内网络与Internet的连接,联机检索将会更方便、更有效。

除了与国际联机系统连接开展信息检索服务外,我国自建的一些机检服务系统也取得了很大进展,如化工部情报所的机检系统,邮电部情报所的机检系统,机械工业部情报所的机检系统等,这些系统多是引进国外数据库,在获取信息的时效性、完整性方面大大不如直接进行联机检索所获取的信息,但在经费不足的情况下,使用这些系统仍不失为一种补救之策。

二、从因特网到全球信息高速公路

现代远程通信技术、计算机技术以及相关技术的发展和结合形成了日新月异、风行全球的国际互联网——Internet(因特网)。因特网是分布在世界各地的计算机信息网络之集合,通过这一集合体,人们可以不受时空限制地实现资源共享和进行信息交流。

1.Internet的由来

Internet的雏形是美国国防部高等研究规划局(Advanced Research Projects Agency,简称ARPA)筹建的军用实验网——ARPANET。60年代初,ARPA资助许多大学电脑学院(系)开展电脑网络与通讯的研究,以寻求一种新的信息传送途径。作为其中的一项成果,就是产生了TCP/IP通讯协议标准,以及按这套标准进行联网的ARPANET。1969年,ARPANET以犹他大学、加利福尼亚大学圣巴巴拉分校和洛杉矶分校、斯坦福国际研究所(Stanford Research Institute International,简称SRI International)四个单位的电脑为试验站点成功地进行了联网通讯,后来逐渐发展成为一个遍布全美的网络,能够提供电子邮件、远程登录、文件传送等服务。

ARPANET的成功,特别是这个网络所起到的促进科研人员之间信息交流的作用,逐渐引起了人们的注意和重视。但是,由于这个网络的专用干线属于美国国防部所拥有,没有获得联邦政府科研项目合同的学校,不能加入该网络。为了解决这个问题,1980年美国国家科学基金会(National Science Foundation)在ARPANET结构上,同时利用公用的X.25网络线路和其他方式,组建了由150余所大学电脑学院(系)构成的CSNET,提供类似的服务。

1984年,国家科学基金会(NSF)在CSNET的基础上开始扩建NSFNET。NSFNET包括六个超级电脑中心,这些中心之间建立有高速的联网专线,作为NSFNET的主干线(Backbone)。与此同时,国家科学基金会在全美分片建立了二十个区域性网络,连接到NSFNET的主干线上,每个区域网络覆盖了当地大学和研究机构的局部网络。到1986年,大致建成了一个三级结构的网络。NSFNET的主干线最初是每秒为1.54Mbit的T1线路,1990~1991年间更新到每秒45Mbit的T3线路。1993年底,NSFNET已决定进一步向传输速度超过每秒600Mbit的ATM线路发展。

NSFNET以TCP/IP为标准的通讯协议,这样,NSFNET可以顺利地和美国国内的以及其他国家的TCP/IP网络连通,形成一个覆盖全球的网络结构。对于个人用户来说,只要用户的电脑能接到本地的某个网络站点上,就可以通过这个网络接到本地区的网络,通过本地区的网络接到NSFNET,通过NSFNET接到其他地区网络或全球的TCP/IP网络上。对于其他的局部的网络用户来说,只要我们的网络能和附近的TCP/IP网络站点连接起来,也就可以说是和整个网络世界取得了联系。这种网络与网络之间的联系,在技术上说,叫做Internet working,而运用TCP/IP实现了这个宏观的网络结构,叫做Internet。

可见,Internet不是一个单独的网络,而是连接世界各地的计算机信息网络系统。至1995年1月,与Internet相连的国家和地区达160多个,用户达4850万。中国也于1994年5月正式与Internet联网。国内直接与Internet相连的单位或网络有:中关村教育科研示范网(NCFC,将在下文专门介绍),中科院文献情报中心,中国科学院等高能物理研究所计算中心网络(IHEPNET)和北京化工大学网络中心(BCNET)以及邮电部中国公用计算机互联网(China net)。据1995年7月统计,我国同Internet直接或间接联网的单位已有近百个,节点机达到6000—7000台,用户超过4万,目前,我国互联网用户已达数千万户。因此,我国的教育工作者,科学研究人员等均可以通过这些网络或中心,直接与Internet取得联系,运用Internet丰富的信息资源。

2.Internet的基本功用

Internet的基本功用主要包括电子邮件,远程登录和文件传递。

(1)电子邮件(E—mail):这项业务是Internet开展最为广泛的业务。通过Internet可以同世界各地的人们建立快速方便的通信。没有Internet,要采取电子邮件建立全球通信将是十分困难的。当然;电子邮件不局限于Internet。它可以在任何一个计算机网络上实现。实现电子邮件的两个主要条件是:首先,每台计算机需要装有电子邮件软件;其次,进行通信的计算机需要采用相同的语言。例如,在一个校园内的所有计算机,只要接在校内的区域网上,并装有必要的软件,则任何一台计算机均可同另一台计算机互通邮件,从而也就可能通过Internet与全世界互通邮件。

(2)远程登录(Telnet):这是一项TCP/IP提供的专门协议,使得本地计算机用户可以利用远程计算机资源。此时,本地计算机即作为远端计算机的一个终端,共享资源。利用远程登录可获取大量公开服务,包括图书馆目录以及其他各类数据库,并可以因此通过Internet与国际联机检索系统取得联系。远程登录,一般需要拥有有效的用户识别号和密码。当然,Internet内也有许多公开的远程机点,不要求识别号和密码。远程登录指令的一般形式为:Telnet(INTERNET地址),其中,INTERNET地址即为你要联机的远端计算机地址。

(3)文件传递(ETP):当我们在网上发现需要的信息,而又不希望在远端系统上处理它,想复制一份;或者某个公开软件正好能解决你的难题,你想试试看。在这种情况下,你要将文件转移到你的系统上来。这就是ETP。在两台计算机之间转移文件,无论这两台计算机的位置在何处,如何连接,甚至是否采用相同的操作系统,只要它们都与Internet相连,都执行ETP协议,同远程登录一样,我们可以通过文件传递获取大量公开的在线数据库或档案。文件传递协议有两种:一种需要有注册户头,另一种则无需注册户头的无名氏文件传递协议。大多数公开的档案和数据库均提供无名氏文件传递业务。

3.Internet与Information Super Highway

为了扩大Internet用户覆盖面,美国政府付出了很大努力,但很快遇到了另外一个问题,即如何把高速的Internet直接送到所需要的用户手中,包括公共图书馆、中小学、产业部门、商业部门以及作为消费者的居民,这就涉及了Internet线路的布局问题。于是信息高速公路的设想便提上了议事日程。

1986年,美国国会在当时的参议员Al Gore的提议下,开始探讨建立一个国家数据网的必要性。1988年,Gore正式向国会提议建立“国家科研与教育网络”(NREN),为全社会的科学教育文化部门提供高速信息通讯网络。这个提案几经周折,最后成了Al Gore与克林顿搭档竞选总统时的一块很有分量的敲门砖。1991年12月,美国政府一项题名为《High—Performance Computing Act》的法案中决定,开始建立NREN。法案规定,在五年内拨款29亿美元,把美国的Internet扩展为NREN所需要的信息高速公路,并作为建设全国信息高速公路的第一步。美国的目标是到2010年,建成一个覆盖全国的信息高速公路,连接全国的学校、图书馆、医院、商业及消费者。这样一个跨世纪的工程,据估计需4000亿美元的社会总投资。

建立信息高速公路当然并非美国一国的目标,而已是一个世界性的趋势。日本计划在2015年之前。建成耗资1200亿美元的高速信息网络。面积仅618平方公里的新加坡,也准备投资数百万美元建设一个世界上最先进的信息高速公路系统之一。1994年初,欧共体发表白皮书,也将要建立一个覆盖整个欧洲的信息高速公路网,称为“欧洲神经系统”。究竟信息高速公路是一个什么样子?信息高速公路的意图是覆盖全世界,而且要连接到各行各业,连接到千家万户,这无疑将给所有的地球公民带来福音。

三、中国国家计算与网络设施(NCFC)

中国国家计算与网络设施NCFC(The National Computing and Networking Facility of China),又称中关村地区教育与科研示范网络,是世界银行用于“重点学科发展项目”贷款中的一个高技术基础设施项目,是一个具有相当规模,光纤互联的计算机网络。

NCFC的建设目标是:本地实用,为中国科学院、北京大学、清华大学及国内有条件与之相连的科研单位和高等院校提供网络的各种应用;国内示范,在网络工程建设、网络研究与开发、网络管理与服务、网络应用、网络人才培养等方面提供经验:国际联网,与全球最大的计算机网络Internet相连,共享其大量资源,进行各种信息交流和通信联系。

NCFC项目实施的最初范围包括中科院中关村地区各研究所、北京大学校园区、清华大学校园区。

NCFC工程由国家计委、中科院、国家教委、国家自然科学基金委员会等领导部门配套投资和发展支持,在NCFC管理委员会的领导下,中科院计算机网络中心总负责执行。

NCFC工程于:1990年4月开始实施。目前已投入运行和使用,包括与Internet联网及使用。NCFC的网络工程建设目标已完成并有所拓宽。

1.网络协议与标准

NCFC采用TCP/IF协议为主,以OSI为发展方向,兼顾其他标准的网络体系结构。从网络建设一开始就坚持实用、开放的原则,使中关村以及其他地区存在的多厂商、异机种、多协议、多种应用的计算机都能连接入网,同时保证NCFC的长远发展。

2.网络结构及采用的主要联网技术

NCFC采用两级结构:三个相对独立的院校网(中科院网CAS—net、北京大学校园网PUnet、清华大学校园网TUnet);与连接三个院校网的NCFC主干网。主干网与国际网络及国内其他网络相连。三个院校网内部也各有自己的骨干网并通过它们下连各所、系的局部网。例如,CASnet的骨干网呈三角形,由10Mbps的Ethernet Bridge(桥接器)和lOOMbps的FDDI Bridge构成双回路,组成可靠的互为热备份的通讯骨干网,然后经数十个Router(路由器)连到各研究所。

3.工程进展概况

NCFC已投入运行,共约100个局部网互联,约2000台机器入网,并联人Internet。NCFC也与国内一些网络或计算机相连。

(1)三个院校网已于:1992年建成,1993年1月经国家计委验收投入使用。

(2)1992年初,NCFC连入国家公用数据网CNPA,现已切换到CHINAPAC。

(3)1993年12月完成联结三个院校网的NCFC主干网工程。

(4)1994年4月用64Kbps专线连入Internet,并于5月向Internet正式注册,将代表中国的域名服务器(DNS—Domain Name-Server)从国外移至NCFC。

(5)从1994年初起已在网络中心配置和安装了多种网络管理与服务设施。目前已基本具备一个较大型NIC(Network Information Center)的NOC(Network Operations Center)的功能。

(6)NCFC已外连到国内其他一些网络和计算机。三种最广泛使用的连入方法均有,包括DDN专线、中国公用数据网CHlNA—PAC,公用电话网PSTN的专线或拨号。目前继续有不少大学、研究机构等正在进行与NCFC的联网工作。

4.网络运行、管理与公用服务

从1994年1月起,NCFC主干网已全天24小时运行,特别是与Internet连通后更是如此。为保证用户正常使用,网络中心对全网进行了有效的监控,及时排除故障。网络中心已初步配置了NOC必需的管理、监控与统计设施。

对NCFC这样的网络,特别是将代表中国的最高域名服务器即CN域名服务器从国外移至NCFC后,NCFC首先要建立中国的NIC,以解决面向国内用户单位的网络注册服务、目录和数据库服务、公用信息服务,同时也面向国际。为此,除必须且已建立的域名服务器、邮件服务器外,又先后建立了匿名文件服务器(anonymous ftp server),Gopher服务器,News服务器,WWW服务器,并正在建立Whois等服务器。目前这些服务器逐步充实了由中国提供的信息,Internet上的很多外国用户已经可以访问我国的NCFC信息网。

5.网络应用

NCFC投入运行以来,已有大量的用户使用这一网络,特别是通过NCFC使用Internet。1994年4月NCFC连入Internet后,Internet的NOC已对中国使用Internet的状况进行了统计。例如,1994年10月1日的统计表明,中国连入Internet的网络已有22个,1994年9月,中国在Internet的主干网NSFnet上的交通量达7000MB,平均每天200MB以上。从NCFC网络中心监控NCFC用户使用Internet的统计看也是如此。这对NCFC的各种用户在不同专业领域享用国际信息资源,处理各自的业务起着重要作用。NCFC的用户已能够在一个与国际网络接转的平台上工作,使有关的科研、教育、国际交流工作迈上了一个新台阶。

NCFC内部的用户之间也在进行着不少信息共享和交流工作。有关部门正在NCFC网络中有计划地布置和实施着网络应用的开发工作,如中科院、北京大学、清华大学三院校的图书情报信息系统、计算机辅助教学系统、科学与工程计算机软件共享系统等。NCFC网络中心除大力建设NIC提供各种公用服务外,还进行着科学数据库的建设与开发工作。所有这些都为NCFC的国内外用户享用NCFC信息资源带来希望,使中国的信息资源走向国际,并占有一席之地。

利用现代化信息检索技术获取信息首先要了解其检索原理与方法,掌握好人一机对话方式,即计算机信息检索系统所指的情报提问同文献标识或文本之间的匹配原理和方式,这也是现代化信息技术的检索路径,将在第二节介绍。

第二节 现代化信息检索技术原理与方法

一、加权检索

所谓加权检索,就是在检索时,给每一提问检索词以一个表示其重要度的数值(即所谓“权”),然后对含有这些检索词的文献进行加权计算,其和在规定数值以上者,作为答案输出。权值的大小,可以表示被检出文献的切题程度。若干命中文献按权值大小排列,这种提供情报信息的方式,本身就具有推荐的意义。

检索词的权是按照提问者需要给的。例如要检索“硫对金属的冲击强度的影响”课题的文献,可分别对各检索词赋予一定的权数:

硫30钢40冲击强度30

这样,在检索时,可能有下列五篇文献,它们对该提问的权值可能分别是:

1.硫对钢的冲击强度的影响——100

2.论钢的冲击强度——70

3.元素硫——30

4.塑料的冲击强度——30

5.污水处理——0

如果临界值规定为“70”,则被检出的是前两篇文献:如果临界值规定为“100”,则被检出的文献只有第一篇。凡临界值以下的,皆为非命中文献。

也就是说,加权检索,就是计算机在将检索词同索引词进行对比时,同时统计权值。然后按值的大小顺序排列,用临界值确定输出的下限。这些工作,对于计算机来说是轻而易举的。加权检索是同布尔逻辑检索完全不同的匹配方法,但其结果是相同的,即凡是布尔逻辑的功能,加权检索也能实现。对于需要进行逻辑非的词,加权时可用负数。

二、截词检索

所谓截词检索,就是把检索词截断(加上截词符号),让计算机按照字的部分片断同索引词对比。这里有前方一致(右截断)、后方一致(左截断)以及中间一致(左右同时截断)等三种方法。

1.前方一致

查计算机(computer)这个检索词时,若用截断符号*,可写成computer*,则索引词computer,computers,computerise,computerize等均算命中。这种右截词的方法在计算机化的情报检索中被广泛使用,因为这样可以省去写各种词尾有变化的检索词的麻烦,有助于提高查全率。当然,在何处截断,这是要认真考虑的,如果把computer一词截断成com*,那么就会使所有com开头的索引词均被检出,其结果是误检率大增。

2.后方一致

把截断符号放在字根的左边,如,computer,那么计算机进行匹配时,索引词minicomputer,microcomputer均算命中。这种左截断检索方式,对于某些课题的检索是很有用的。例如*mycin,则可查出一大批有关抗菌素的文献。

3.中间一致

把检索词左右都同时截断,如*computer*,则可命中那些其中间部分包含这个字根的所有索引词,如minicomputer*,minicomputers等等。显然,这种左右同时截断的方法。在检索较广泛的课题的资料时,能获得较高的查全率。

截词检索事实上只是计算机进行检索同与索引词之间的前方一致、后方一致、中间一致的对比匹配方式。这种匹配方式虽然手工检索时也可进行,但计算机的效率要高得多。因此截词检索是发挥计算机本身优势、应用计算机固有的指定位对比判断功能的一种检索匹配方式,也是计算机情报检索出现之后才产生的一种新的检索方法。

三、通用字符检索

在英语中,有的字有不同的写法。例如颜色这个字有两种拼写形式——Colour,Color。硫也可分别拼写成Sulfur或Sulphur。这样的问题,不是截词检索可以胜任的。这样,为了使不同拼写方法的硫或颜色的索引词都能被检索出来,就出现了通用字符检索方法。它一是将拼写有变化的字母处以通用字符符号,如Sul*ur。这样,计算机在进行匹配时,凡两端的字母相同,中间字母有所出入的都算命中,从而使Sulfur和sulphur同时都被命中。通用字符检索,也可以叫做插入截词。事实上它是前后方一致的匹配方式。

第三节 现代化信息检索技术操作方法

一、通过Internet网络检索国外数据库

Internet具有功能多、速度快、费用低等特点,尤其是能在Internet网上进行联机数据库的检索,因而受到了国外大多数联机数据库服务机构的青睐。近年来,国内用户所熟悉的一些大型商业联机系统纷纷上网,为自己在Internet上开设了用户存取网点,如DIALOG,STN,ORBIT等。由于我国的一些网络如NCFC也已与Internet相连,因此利用Internet与国际联机系统取得联系并检索其数据库已经成为可能。

1.常用联机系统在Internet上的地址

长期以来,用户检索DIAlOG等系统的数据库,都是通过SprintNET或TYMNET通信系统与远程主机相连的,但是自Internet出现后,这种状况被改变了,由于在最基本的通信水平上,Internet与SprintNET和TYM-NET相比毫不逊色,因而人们有了新的选择。

使用Internet,查询者就像通过其他通信网络一样方便地进入远程主机系统,不过,在Internet上要求有比较高的速度,而通信速度的高低主要受本地计算机限制,因此,在使用Internet之前,最好应选择速率为9600bps或9600bps以上的MODEN。

用户在通过Internet进行远程联机之前,首先要知道对方在Internet网上的地址,然后还要在对方主机注册用户名并取得用户口令,有了这些才能成功地进入对方系统获取所需信息资源。对于原来通过TYMNET联机的国内用户,只要计算机上了Internet网,再知道对方主机的地址就能顺利进行检索了。

2.用户如何通过Internet进入国外联机数据库系统

(1)Internet用户如何进入国外联机数据库

Internet允许各种不同型号的计算机,不管是苹果电脑还是IBM个人计算机甚至大型主机都可以与之相联。在分布式计算机与分布式计算环境中,常常需要调用位于远程计算机上的资源,协调其同本地机器上的作业,进程之间的工作,使得多台计算机能共同完成一个较大的任务。这时就要求登录到远程机上去,启动某个进程,并且使进程之间能互相通信。为了达到这个目的,人们开发了远程终端协议,称为Telnet协议,它允许用户在本地机上与远地机上的服务器建立通信连接,然后将本地机上输入的字符串直接送到远程机上去执行,该协议中还设置了许多子命令可用于控制通信和会话过程。

远程登录功能为直接登录远地计算机系统提供了一个用户接口。通过Telnet命令,用户可以进入某些对其开放的结点机,然后利用其他UNIX命令来存取访问结点机上的资源。本地机、远程机之间遵循TELNET协议。

命令格式:telnet host port

telnet命令后跟对方主机名,这样就直接登录到远地机上。

当只键入telnet命令时,屏幕上显示‘telnet’提示符,从而进入可以接受子命令方式。在此方式下可以执行下述各种子命令。

一旦建立一次连接,telnet就进入了输入方式,此时从键盘上输入任何字符都被送到远地机上显示或解释执行。

常用的子命令有:open host port

与给出的host建立连接,开始一次远程登录会话,host部为主机域名或IP地址。

Close:结束远程登录会话,并退出telnet过程。quit:同close。

另外还有一些子命令,这里不一一列出。

除了直接用Telnet命令登录远程主机以外,目前在Internet上,查询数据库资源的方法还有客户机/服务器(client/server)模式,采用这种方法,用户只要运行客户机上的软件,就能进入Internet上的某个服务器,如Gopher,WWW,WAIS等,通过这些服务器,用户只要指定查询内容,服务器就能在Internet网上自动切换成Telnet命令完成本地机与远程机的连接,搜索用户所需的信息。这些功能的主要好处在于能帮助不知道网上有哪些数据库资源和不清楚对方主机地址的用户得到自己所需的信息。

对于已经知道地址的联机数据库系统而言,用户只要用Telnet命令接该系统地址直接登录到国外主机上就行了。

目前,国外的许多大学图书馆都提供通过Telnet的对外联机检索服务。一些政府机构及研究机构也将他们的数据库对外开放,提供各种菜单驱动的用户接口,甚至全文检索接口,供用户查询。进行远程登录时,用户首先应在Telnet命令后给出计算机的通信域名或IP地址,然后根据对方的询问,正确键入自己的用户名和口令。有时还需回答自己所用仿真终端的类型,如VT100、VT52等。

另外,Internet上有的数据库提供开放式的远程登录服务,查询这类数据库不需用户事先取得账户和口令,可使用该系统公开的公共用户(Guest)进入。

(2)非网上用户如何联通Internet

目前,国内为机构团体和个人提供Internet上网服务的单位主要有邮电部、中科院网络中心、中科院高能物理研究所等,入网方式多种多样。下面以邮电部的CHINANET为例,具体讲一讲连接方式。CHINANET是邮电部门经营管理的中国公用INTER—NET,中国的Internet骨干网。CHINANET的接入方式灵活,其接点遍及全国各大城市,通过它用户可以方便地接入国际Internet,享用Internet上丰富的资源。

①拨号入网

其一,拨号CHINANET上的UNIX主机入网。

拨号入网经济实惠,适于业务较小的单位和个人使用。拨号入网的用户需具备:一台PC机、普通的通信软件、一台MODEN和一条电话线,到当地邮局申请一个入网账号,即可使用。每次通信首先通过电话拨号登录到CHINANET的UNIX上的主机,运行的是IP软件,因此用户只要通过UNIX主机提供的软件即可进入Internet。拨号入网可以使用电子信箱,Telnet、Gopher和ETP等服务。

其二,通过SLIP/PPP协议入网

通过SLIP/PPP协议,用户可以电话拨号方式实现与专线入网完全相同的功能。该方式适于业务较小但又希望以主机方式入网的用户使用,通过SLIP/PPP协议入网的用户所需的硬件与普通拨号方式完全相同,不同的是需配备SLIP/PPPP软件。通过SLIP/PPP协议入网用户可享受Internet的所有服务。

②通过分组网入网

其一,通过CHINANET的UNIX主机入网

该方式适合于分组网上的所有用户。用户仅需到当地电信局申请一个Internet账号,和办理有关手续即可从分组用户变为Internet用户。该方式入网的用户可以使用的Internet服务同普通拨号入网的用户完全相同。该方式入网的优点是通信费与通信距离无关。

其二,通过分组网以TCP/lP协议入网

该方式同专线入网类似,所不同的是传输媒介是分组网的虚电路(SVC 或PVC),而不是物理电路。用户除需是分组网的有权用户外,还要配备支持TCP/lP协议的路由器和运行IP软件的主机或网络,同时用户还需为其网上所有设备申请地址和域名。这样用户网上的所有终端均是完全的Internet用户,可以享受所有的服务。

通过分组网和路由器入网,用户可以一机多用,即用户除了是Internet的有权用户外,还可以同时与网上的用户通信。

③通过帧中继入网

帧中继的特点是通信速率高同时又可以有多个点建立PVC,且租费较低,适用于LAN(局域网)之间的互联。用户通过帧中继的方式入网,需申请入网帧中继电路、配备支持TCP/IP协议的路由器,当然用户必须有一个LAN或主机,同时用户还需为其网上的所有设备申请IP地址和域名。这样用户网上的所有终端均可享受Internet的所有服务。

④通过专线入网

专线入网具有通信速率高,适于大业务量的网络用户,但费用相对较高。用户需具备入网专线和路由器。入网后网上的所有终端和工作站均可享受Internet所有服务。

二、联机检索的操作方法

对于国内用户而言,联机检索可分为国内联机检索和国际联机检索,这两种方式在范围上存在差异。同时,不同的联机系统存在不同的指令与功能,但总的来看,基本的检索步骤与方法是相同的。由于目前国内数据库产业还刚刚起步,国内的一些机检系统多是引进国外数据库进行检索,服务还不普及,而且与Internet相连的中国网络不断增加,利用Internet检索国外数据库日渐方便,因此,国际联机检索已经是而且仍将是主要的联机检索方式。基于此,这里主要以DIALOG系统为例介绍国际联机检索的基本步骤与方法。

1.联机检索的基本步骤和方法

(1)明确情报需求,分析检索课题

①明确情报需求,具体地说,有如下几个方面:

首先,明确检索目的,如申请发明和专利,了解某研究课题的最新进展、查找参考文献等;

其次,明确文献语种、年限、类型等;

第三,明确文献数量、输出项目。

②分析检索课题,其主要内容为:

首先,明确检索课题主要涉及的学科范围;

其次,了解与该课题有关文献的历史与现状;

第三,分析课题的主要内容,明确主题概念以及这些概念之间的相互关系。

在上述基础上,用户对如何选择数据库,采用何种检索策略有了一定的了解。

(2)选择数据库

①了解系统数据库的种类,如DIAlOG系统中大部分是存贮二次文献的书目型数据库,还有一些是存贮统计数据的数值型数据库,另外尚有辞典数据库和全文型数据库。用户可向有关服务单位索取并阅读有关数据库的资料,了解它们所报道的学科、范围。

②了解数据库报道的二次文献的类型、收录文献的年限、记录的文种等。目前,大部分数据库都是用英文记录的,但它们所报道的二次文献的原文则可能是英、法、德、意、俄、日文种。

③数据库选择方法

数据库选择方法大致包括三种:

主题查找法:DIALOG系统为了帮助用户选择合适的数据库,编制了一本数据库的主题索引Find Your Database Fast。用户可向联机检索服务单位索取并查阅,根据自己检索课题的主题选取所需数据库。

从主题范围选取数据库:DIALOG系统将所有的文档按主题内容分类,并编写了DIALOG系统的数据库说明资料,如DATABASE:CATALOG和各文档的主页,对各数据库的来源、主题范围等情况作了详细介绍,用户可从这些说明材料了解和熟悉该系统的数据库的内容范围。

联机选择数据库:DIALOG系统专门建立了一个《DIALOG系统文档索引》数据库(DIALINDEX),即411文档。用户可用所选用的检索词,检索单元或提问逻辑式向此数据库查问DIALOG系统中任何数据库中符合检索需求的文献数量,从而据此选择最合适的数据库,反之。反馈的文献数量也可检验所用的检索词等是否合理,以便选取最有效的检索式及最理想的数据库。此文档检索机时费用较低,比大多数数据库的机时费用便宜1/3以上。

(3)检索单元的确定

检索单元是指文献记录中所有的检索标志,如检索词、作者名、机构名称、期刊名、分类号、产品代码、原始文献语种等。它是构成检索提问特征标志的最小单位。同时也是联机检索中进行逻辑组配的最小单位。因此,检索单元的选择恰当与否将直接影响到检索的效果。

联机检索所使用的检索词或检索单元选自一定的书本式主题词表或检索刊物。这里所述的主题词表包括了叙词和标题表两种。DIAILOG系统的许多文档都有各自的主题词表,用户可以通过查阅这些主题词表确定检索单元。

(4)联机检索提问单的填写

用户可以按照自己对情报的需求填写联机检索提问单,不熟悉联机检索的用户最好能与专职检索人员商讨,得到他们的帮助。若有可能,检索人员检索时,用户应在场。以便做出准确的随机判断。各单位的联机检索提问单各不相同,但基本内容大体一致。包括:课题名称,关于查找资料的说明,使用文档的编号或名称,检索词,检索策略。输出要求等。

2.检索指令

用户是通过DIALOG系统的指令进行联机检索的,因此熟悉系统的指令是使用DIALOG的基础。系统的指令共有60多种,这里介绍它的基本指令、常用指令和全文检索逻辑算符。

(1)基本指令

①BEGINn(或Bn)——开始调用文档指令。n表示调用文档的编号。指令输入后,计算机的时钟开始计时,并初步算出检索正式开始前的费用。在检索过程中,线路中断后重新连接不可用Begin指令,要用DS指令。

②FILEN——换用文档指令。n表示用户需换用的文档编号,该指令可用于检索过程中原先联机的文档转换至另一文档。指令输入后,便显示该文档的介绍。用户的提问编号继续累加,同时该指令输入前的原始步骤继续保留。

③SELECT(或S)——基本选词指令。用来输入检索语句。检索语句可以是基本索引中的主题词和文献篇名中的实义词。也可以是辅助索引中的代码、人名、机构名等,检索语句中各词之间可以使用逻辑算符组配,也可加括号。

④SELECT SETS(或SS)——步进选词指令。功能同S指令,其特点是系统对被组配的每一个检索词都赋予一个提问编号,以供用户修改检索策略时调用。而s指令只对最后的结果赋予一个提问编号。

⑤COMBINE(或C)——逻辑组配指令。联机检索过程中,用户将单元词或多元词输入后,为了表达检索词之间的关系,需以此指令采用布尔算符进行逻辑组配形成检索式。

6.TYPE(或T)——联机打印指令。直接在终端打印机上打印检索中的文献记录。

⑦PRINT(或PR)——联机打印指令。系统先将该指令及打印的格式、要求等存入主机,然后由快速打印机打印并邮寄给用户。

⑧LOGOFF——关机指令。当检索结束时,输入该指令,系统便自动显示关机时的年、月、日和时间;用户号;检索文档的联机时间;检索词数量,费用仿真及最后显示脱机时间。

例课题名称:不锈钢坯连续铸造

使用文档DIALOG系统32文档(METADEX)

?b32(联机检索开始,选用32次文档,问好“?”表示检索系统问用户要输入什么指令)

?SS Stain Steels(步进选择检索词Stain Steels)

1 8507STAI N LESS STEELS(1为系统自动编的查找步骤号,这一步其检得8507篇文献)

?SS Sl1abs/de(第2步,限定在主题词字段内查找)

2 963SLABS/DE(检索得963篇文献)

?SS Continuous Costing

3 3527CONTI NUOUS CASTING

?Cland 2and 3(组配指令命名1、2、3三个步骤逻辑乘)

4 9lAND 2AND 3

?PR4/5/1—9(让检索系统脱机打印第4步第5种输出格式第1—9篇文献)

Print 4/5/1—9

?1ogoff结束指令

(2)常用指令

①EXPAND(或E)——扩展指令。该指令可在指定的文档中显示基本索引(basic indexes,是主题性质的索引,它表明文献的内容特征,由文献记录的篇名、文摘、叙词和标引用的自由词等字段中所有的单元词和词组构成)和辅助索引(additional indexes,包括一个数据库中非基本索引的所有可检字段,是非主题性的。仅表明文献记录的外部特征)的一部分,以便选用最合适的检索词,提高查全率和查准率,需扩展的可以是单元词或词组。

②截词符号“?”。使用该符号可利用某些检索词的词干或不完整词形进行检索,其作用是减少检索词的数量、简化检索手段,节省机时,扩大查找范围,提高查全率。在前文已讲述过截词检索的方法,掌握之后,只需了解不同系统的截词符号即可使用该法检索。

③后缀代码。利用基本索引进行检索时,基本索引的各字段作为后缀来使用,以便进一步限定检索词的选词范围。具体表示方法是在检索词后加斜线(/)再加后缀代码,不同文档有不同的后缀代码。此处介绍最常用的。

…/AB文摘abstracts

…/TI篇名titles

…/DE,…/DE*叙词descriptors(可以是词组之一部分)

…/DF,…/DF*完整的叙词full descriptors(一般为单元词)

…/ID,…/ID*标引用自由词identifiers

…/IF,…/IF*完整的标引用自由词full identifiers

…/NT注释note

…/SH标题分组号,范畴号section heading

其中,*表示某些文档中的主要叙词或主要标引用的自由词。

④前缀代码。利用辅助索引进行检索时,辅助索引的各字段作为检索词的前缀来使用,具体方法是前缀代码加等号再加检索词。不同的文档有不同的前缀代码,最常用的前缀代码有:

AU=著作Author

CS=机构名称Corporats Source

DT=文献类型Document Type

JN=期刊名称Journal Name

LA=文种Language

PY=出版年Publicaction Year

UD=更新周期Update

JC=期刊代号Journal Code

CC=分类号Classification Code

RN=报告号Report Number

例如:?Au=Smith.J.C.

意为查著者Smith J.C.写的作品。

⑤指令叠加使用DIALOG系统允许终端用户同时把几种指令叠加起来使用,就是把选词指令、组配指令和联机打印指令连写在一起,两个指令之间用分号隔开,一次输入系统内,系统自动显示出查找结果。这比将检索词逐步输入、逐步组配要节省机时,但必须仔细,以防出错。

⑥提问保留指令DIALOG系统具有保留检索提问式的功能,这是大型检索系统普遍采用的重要功能之一。发出保留指令,可以将检索过的提问式在系统中保留起来,如果再用这些提问式检索时,就不必逐个重输了,这样一方面节省了机时,另一方面也避免有可能出现的操作性错误。

保留指令分以下三种:

永久提问保留指令(END/SAVE)长期保留在系统内,直至输入取消该保留指令为止。对这种保留方式,系统按月收费。

定题提问的保留指令(END/SDI)在用户要求定题服务的期限内把提问式保留在系统内,每次更新文档时,操作人员按此提问上机检索,并将检索结果寄给用户。

暂时提问保留指令(END/SAVETEMP)一般同一提问同时查两个以上数据库可使用该指令保留后,当天使用可免费。查完第一个文档就发此命令,系统马上给一个保留号,再查下一文档时,只要输入此保留号即可。用此指令须注意所用检索词对文档的通用性。

(3)全文检索逻辑算符

DIALOG系统具有全文检索功能。全文检索即用文献记录中的自然语言检索。全文检索使用非规范化的单元词,凡估计在文献记录中有可能出现的词都可以。全文检索的优点是可以解决叙词不足或词表不全的困难;可以弥补有些检索提问式难以用逻辑组配表达提问要求的缺点;同时可以提高查找深度。全文检索逻辑算符有以下六种:

①(W)——with。表示两词之间只能为一空格或标点符号,且(w)算符两侧的词不能互换。

②(W)——n words。表示两词之间可插入0至几个任意词,其前后两词的位置不可互换。

例如:?s wear(1w)materials表示可以是Wear of materials

?s gone(2w)wind.可以是gone with the wind

③(F)——Field。表示两个检索词必须在同一字段中查找,且两词的先后位置可以互换,夹在两词之间的词数不限。但使用此算符时,必须指定一个(或两个)所要查找的字段。

例如:?ss enviroment?(f)impact/ab表示在文摘字段中按任意词序查找包含enviroment和impact两词的文献,因此文摘中有

下列片语者这篇文献即能命中,如:

(the)impact on the environment

(the)enviroment impact on the industrial construction

④(c)——combine。表示两个检索词在一篇文献的全文记录中查找,只要这两个词同时出现在该文献记录中,不分词序先后,也不分字段,这篇文献序算命中,其作用与逻辑乘AND相同。例如:

Electric(c)Vehicle=Electric AND Vehicle

⑤(L)——Link。系统限定只在主题词字段查找,在有些文档中,两个主题词之间有一定的从属关系或分一、二级主题词的文档才可用此逻辑符。例如在第8文档中(L)前为一级主题词,(L)后为二级主题词(见下式)

accident prevention(L)iron mines and mining

⑥(s)——Sentence在某些文档中,用于同一字段的同一句子或片语的查找,且两词间可夹若干词,只要两词同时出现在一个句子或片语中,即算命中。

3.使用自由词全文查找的操作方法

现仍以不锈钢坯连续铸造这个课题为例,同是那些检索词,仍然使用32号文档,改用自由词全文查找的方法来检索,分析检索结果与只用主题词进行查找的异同。

用自由词全文查找时,一个明显标志就是检索词之间一般用(w)或者其他前文查找逻辑算符连接。这时的查找步骤如下:

?b32

?ss stainless(w)steel??

1 15332STAINLESS(W)STEEL??

?ss slab??

2 2473SLAB??

?ss continuous(w)costing

3 6825CONTINUOUS(W)CASTING

?c 1and 2and 3

4 19 1AND 2AND 3

由此过程可见,同一课题使用相同文档,相同检索词,用自由词全文查找所得的文献数比按主题词查找多(19比9)。这主要是因为,按自由词全文查找扩大了查找范围,放松了检索词的限定条件,故命中文献也相应增多。

两种方法的主要区别在于:按主题词查找查全率低但查准率高,按自由词全文查找查全率高而查准率低。

检索者可据自己的检索需求决定选取哪一种查找方法。

第四节 现代化信息检索技术检索策略

一、检索策略及其制定步骤

1.检索策略

所谓检索策略,就是在分析用户情报提问实质的基础上。正确地选择检索词,科学地运用逻辑算符、制定合理的检索提问式的原则和方法。检索策略的优劣,直接影响到相关文献的查全率和查准率,关系到检索服务的效果。当然,对于一定的情报提问来说,检索效果的优劣取决于许多因素:首先是书目数据库的本身的因素,如该数据库所使用的词表质量、标引质量等;其次是系统所提供的功能。但是,在一定数据库质量和系统功能的前提下,检索策略无疑是一个非常重要的因素,在同一个检索系统中对同一个书目数据库进行同一课题的检索,不同的检索策略会导致不同的检索效果。

2.检索策略的制定步骤:

(1)检索课题的分析

在制定检索策略时,必须先对检索课题进行详细的主题分析,分清主要概念和次要概念,以便考虑问题时有所侧重;检查是否需要排除某些概念,以保证情报提问的准确表达。对于一些没有什么检索意义的泛指概念(如方法、研究、作用等),一般不宜选用。在进行主题分析时,去掉隐含的概念,可取得较好的检索效果。例如,“国外教育管理现代化”中的“现代化”就是一个隐含概念,因为当今发达国家的教育管理本身就包含现代化内容,再用“现代化”这个概念去限定就显得多余了。这种隐含概念的使用,常常会影响检索效果。有人曾用“教育*管理*现代化”这种检索语句查找文献,结果一无所获。在概念选择中,应保证在能完整地表达课题内容的前提下,尽可能减少概念组合,减少限制条件。这是消除可能存在隐含概念的有效方法。

在分析课题时,应对查全率和查准率有相应的要求,以便确定合适的检索范围。各种类型的检索课题所涉及的学科范围不同,对检出文献的需求也不一样;各专业的用户因其所从事工作性质及研究的不同,对检索的查全率和查准率也有着不同的要求。对那些要研究新课题、撰写评述性文章与学术著作以及申报专利的用户而言,他们往往需要全面、系统地收集某一专题范围内的文献资料,因此对查全率要求较高。这时,应采取多选用相关概念,增加上位概念(如查微型计算机,必要时可查计算机)或下位概念(如查贵金属时,可以查具体的金属名称:金、银、铂等)的方法来扩检。另外,通过减少概念组面数,去掉部分限制条件,也可扩大检索范围,取得查全的效果。对于在研究过程中需要解决某一具体问题或正在进行技术攻关的用户来说,他们往往只需要某一主题或几个关键数据方面的情报,只要求检索的结果能解决他们的实际问题,不一定需要很多文献,因此对查准率要求较高。这时应使用专指性较强或增加限制的概念来缩小检索范围,以达到查准的目的。还可通过对字段的限定,来保证查找的准确性。

对于那些对查全率、查准率无特殊要求的用户来说,应针对不同的课题,制定相应的检索策略。对文献量较大属于成熟学科的课题,应优先考虑查准率,从众多的相关文献中选取针对性较强的文献。这样,既可以保证检索的质量,又可节省机时。对文献量较少属于新兴学科的课题,可适当放宽检索范围,来保证查全率,以免遗漏重要的参考文献。

(2)检索词的选择

通过主题分析,确定了各概念组之后,就要选择表达概念的检索词(项)。检索词的选择,一般有下面几种方式:

①优先选用主题词表。主题词能准确地表达主题概念,查准率高。主题词表的参照结构及等级关系,可提供所用主题词的上位词,下位词及相关词等,以供参考和选择。这对选全和选准有关主题词有很大帮助,有助提高查全率。

②从相应的印刷本工具中选取索引词。这种词针对性强,检索效果较好。通过手检摸底,可以了解有关专业术语及用词规律,还可估算有关文献量,以便制定相应的检索策略。

③从原始文献中选取自由词。这种词一般都是专指性较强的专业词语,只要组配得当,通常能够取得较好的检索效果。但要注意选全有关的同义词和近义词,有时还应使用反义词(如环境保护一环境污染);同时,还必须考虑英美不同拼写形式的词以及检索词的单、复数形式、缩写形式等。

④在不具备以上条件的情况下,可以从专业词典、手册及分类表等参考工具书中选词。但是,要避免选用使用频率较低的词,且一般不选用动词和形容词,也不要想当然地按平时的习惯称呼用词。必要时,可使用扩展指令,显示检索系统的索引和词表,以便选择检索词。

⑤检索专利数据库可使用分类号来限制检索的专业范围,以提高查准率。在有些文档中查找特定的化学物质时,使用化学物质登记号,可取得较好的检索效果。

(3)编制合理的检索式

检索式是检索策略的逻辑表达式。从某种意义上说,它就是检索策略的具体体现。检索式的制定是否合理,将关系到检索策略的成败。检索式的质量,主要取决于检索者对检索系统功能的了解程度以及使用检索算符的方法和技巧。一般而言,使用逻辑“与”算符越多,则限制条件就越多,专指性就越强,有利于提高查准率;使用逻辑“或”算符越多,连接的相关词越多,检索范围就越大,查全率越高。另外,使用逻辑“非”算符来去掉不相关概念,也可提高查全率。但在使用逻辑“非”时要慎重,不然会舍去一些相关文献。例如,查找“除核能以外的能源方面的文献”,这时用逻辑“非”排除“核能”这个概念时,有一篇名为“an alternative to nuclear energy”(核能的一种代用品)的文献就会被排除,而这正是我们所需的文献。

在检索式中,一般不要连续使用多个位置逻辑算符,以免限制过严而漏检文献。一般来说,如果连续使用三个以上的(W)算符,就难查到文献了。利用截词符对检索词进行适当处理,可表示检索词的单复数形式,同一词的不同拼写形式以及词干或词尾有多种变化的各种检索词。例如,查找“反射方面的文献”,采用截词形式“reflect?”,就可以包括许多相关词:reflectance,reflectedwave,reflection,reflectometers等等。这样可以减少输入的检索词数量,节省机时,同时还可提高查全率。

二、检索策略制定举例

任何一个课题的检索都不可能完全相同,以上介绍的检索策略的制定步骤与方法只是基于就一般情况而言的,而要真正地做到合理制定检索策略,则要不断实践,不断丰富经验。以下我们介绍一个检索策略制定的实例。

例课题:添加谷壳的铁矿石烧结工艺

课题说明:通过大量实验表明,将谷壳添加到铁矿石烧结料中,能大幅度提高烧结矿的产量,降低能耗,因此,可取得显著的经济效益。本课题的检索目的是想普查国外有无类似的工艺技术。以判定是否能申报发明专利。

根据课题内容,用户选择了如下检索词:

①iron ore铁矿石

②sinter烧结

③additives添加物

④rice husk谷壳

检索策略的制定:

对这个课题来说,在铁矿石烧结料中加入谷壳已经隐含了“添加物”这个概念,因此,没有必要使用这个概念了。在检索中,去掉隐含概念,也就减少了限制条件,有利于提高查全率。由于预先估计到这方面的文献可能不多,因此,为了得到所有相关文献。决定先不使用“烧结”这个概念限定,以扩大检索范围。“烧结”作为备用检索词,根据联机显示的情况决定是否使用。另外,“铁矿石”这个概念组面还应增加两个相关词:meganetite(磁铁矿)、hematite(赤铁矿)。“谷壳”这个概念组面增加了rice hull(在该课题检索中,就是因为增加了这个相关词才命中了文献)。检索提问式为:(iron(w)ore??+hematite+magnetite)*rice(2N)(hull?+husk?)。

在与我国联机的国际联机系统中,ESA系统尚无专利文档;ORBIT系统虽有世界专利文档,但由于指令颇多,检索过程复杂。占用机时较多,不太经济;而DIAL,OG系统功能强,拥有的专利文档多,目前国内的专利“查新”大都使用该系统。因此,决定使用DIALOG系统,并选择了专利文档及有关技术文档一共8个。在检索中,先使用了411文档进行预检扫描,然后再转有命中文献的文档打印有关记录,取得了较好效果。

计算机检索系统一般都采用专指性标引原则,即采用专指度最相符的主题词来标引文献。为了获得满意的检索效果,检索者也应遵守这个规则,并尽量使用相应专指度的检索词。

计算机检索是在手工检索的基础上发展起来的现代化情报检索方式。机检与手检之间并没有不可逾越的鸿沟:相反,只有两者的紧密结合,才能更好地发挥机检的优势。通过手工查找相应的书本式检索刊物,可以核对检索用词是否准确,检索范围是否恰当,以便进行适当的调整和修正。

三、检索策略的调整

在机检过程中,有时需要对检索策略进行多次反复调整才能获得最佳检索效果。检索策略的调整方式分为联机反馈调整和脱机反馈检索两种。

1.联机反馈调整

联机反馈调整的方式灵活简便,可任意扩检或缩检。检索人员可采用“人一机对话”方式,边检索边观察终端屏幕显示的结果,当场进行调节,修正,不断完善检索策略,直至获得满意结果。由于检索系统具有将已输入的检索词或检索式再限制在题名和标引词字段查找之功能,这使得联机调整有更大的灵活性,在检索中,可先输入检索词进行全文查找,然后再根据终端显示结果来决定是否要进一步缩小检索范围,以得到更为准确的结果。

例一课题:计算机在能源管理中的应用

检索ESA系统的8号文档(科学文摘)

?b8

?f energy management

l 495ENERGY(W)}MANAGEMENT

?f computer application

2 508COMPUTER(W)APPLICATION

?C 1*2

3 0l*2

?S Computer

4 124384COHPUTER

?C 1*4

5 135 1*4

?1imit 5/TI

6 18 5/TI

?t 6/6/1—18

TYPE 6/6/1

TYPE 6/6/2

......

type6/6/18

计算机在能源管理中必然是被应用,因此application是一个多余隐含概念,它使得第3步表示的能源管理和计算机应用的组配结果为零。去掉隐含概念后,在第5步命中3135篇文献,为提高查准率,在第6步再限定在题名字段检索,结果得到18篇较切题的文献。

2.脱机反馈检索

在检索中,有时由于种种原因,没有预期的检索效果,或是发现了新的检索线索,这时,需要进行再一次的反馈检索。脱机反馈检索就是通过对检索结果进行分析、研究,找出存在的问题,或补充新的检索内容,制定新的方案,然后用修改后的检索式再检索的过程。

例二课题:硅线石耐火材料

通过手检摸底之后了解到,硅线石(Sillimanite)有相应的化学物质登记号。由于登记号具有单一性,在检索中使用登记号专指性强,查全率高。因此采用了下列检索式:

RN一12141—45—6(S)refractor?

上式在“化学文摘”数据库中,命中了几百篇文献。采用第一种格式联机打印了80篇文献的文摘号。以上检索的查全率高,但查准率不太理想。一般来说,耐火材料的成分是各种各样的,我们所需要的是以硅线石(sillimanite)为主要成分的耐火材料。要判别这一点,对手检而言并不存在什么困难,但计算机没有这种随机判断能力,而只会机械地进行字面比较。因此,许多仅含少量硅体石成分的耐火材料也被命中了,这是不切题的。虽命中文献多,但在打印的80篇中,有用的很少,因此:决定进行反馈检索。通过分析检索结果,了解有关专用用词形式,将检索式修改为:

Sillmanite(2w)refractor

结果命中了45篇文献,查准率大大提高。取得了较好效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈