首页 百科知识 网络信息检索

网络信息检索

时间:2022-10-01 百科知识 版权反馈
【摘要】:对于网络用户而言,认识网络信息资源分布的规律和特点,正确选择网络信息资源,是进行网络信息检索之前的必要课程。信息的快捷传播进一步加剧了网络信息的分散性,许多信息资源缺乏加工和组织。这种变化频繁的、不稳定的网络信息一方面提供了更为丰富多样的信息,另一方面,给网络用户查找信息也带来极大不便。除了专业数据库之外,网络信息资源中更多的是非正式交流渠道发布的信息。

第8章 网络信息检索

8.1 网络信息资源概述

网络信息资源是指以电子资源数据的形式将文字、图像、声音、动画等多种形式的信息存放在光、磁等非印刷的介质中,并通过网络通信、计算机或其他终端等方式再现出来的信息资源的总和。

因特网的发展,一方面拓展了人们获取信息的方式,使得人们能以更快的速度在全球范围内找到所需要的信息;另一方面,信息的海量增长又让人们发现,如果没有特定的检索技术和方法,所需信息很可能会淹没在丰富多彩又杂乱无章的信息海洋中。对于网络用户而言,认识网络信息资源分布的规律和特点,正确选择网络信息资源,是进行网络信息检索之前的必要课程

8.1.1 网络信息资源特点

与传统的文献信息资源相比,它的分布具有以下特点。

1.分散性

表现在链接分散和物理地址的分散。网络信息的分布并没有一个中心点,通过一条信息可以链接到更多相关或相似的信息;同样地,这条信息也可能是从另一个信息连接而来。这种前所未有的自由度使网络信息资源的共建和共享变得潜力无穷,同样地,也使得信息处于分散的状态。信息的快捷传播进一步加剧了网络信息的分散性,许多信息资源缺乏加工和组织。

2.动态性

表现在internet的不断变化和存在状态的不稳定性。internet上的URL地址、信息链接、信息内容处于经常变动中,信息资源的更迭、消亡无法预测。如号称最疯狂的新闻网站hando.com全天24小时发布新闻,平均6分钟更新一次,并且不存档;我们在日常浏览一些网站时也发现网络信息经常更迭。这种变化频繁的、不稳定的网络信息一方面提供了更为丰富多样的信息,另一方面,给网络用户查找信息也带来极大不便。

3.不均匀性

表现在质量不均匀、分布不均匀。印刷型文献信息一般要经过严格的筛选,才能正式出版。而向网络发布信息有很大的随意性和自由度,缺乏必要的过滤、质量控制和管理体制,这就导致网络信息内容非常繁杂,学术信息、商业信息与个人信息混在一起,信息价值不一。实际上,在这庞杂的网络信息资源中,只有一部分能够真正用于高校图书馆的读者服务中。

4.开放性

除了专业数据库之外,网络信息资源中更多的是非正式交流渠道发布的信息。网络提供了自由发表个人见解的广阔空间和获取非出版信息的丰富机会,包括正式出版物中不能得到的信息,如灰色文献、未成熟的观点、个人的研究心得、教学资料等等。同时,网络扩大了人际交流的空间,如新闻组、讨论组、邮件列表等,都为用户提供了更多的直接交流的机会。

8.1.2 网络信息资源类型

按照所采用的网络传输协议,网络信息资源可以划分为以下5种类型:

1.WWW信息资源

万维网(亦作“网络”“WWW”“3W”,英文“web”或“world wide web”),是一个资料空间。在这个空间中,每样有用的事物,均称为“资源”,并且由一个全域“统一资源标识符”(URL)标识。这些资源通过超文本传输协议(HTTP,hypertext transfer protocol)传送给使用者,而后者通过点击链接来获得资源。从另一个观点来看,万维网是一个透过网络存取的互联超文件(interlinked hypertext document)系统。万维网常被当成因特网的同义词,实际上万维网是靠着因特网运行的一项服务。

2.FTP信息资源

FTP是文件传输协议(file transfer protocol)的英文简称,用于internet上的控制文件的双向传输。人们可以通过协议连接到因特网的一个远程主机上读取并下载所需文献。同时,它也是一个应用程序(application)。基于不同的操作系统有不同的FTP应用程序,而所有这些应用程序都遵守同一种协议以传输文件。在FTP的使用当中,用户经常遇到两个概念:“下载”(download)和“上传”(upload)。“下载”文件就是从远程主机拷贝文件至自己的计算机上;“上传”文件就是将文件从自己的计算机中拷贝至远程主机上。用internet语言来说,用户可通过客户机程序向(从)远程主机上传(下载)文件。

3.telnet信息资源

telnet协议是TCP/IP协议族中的一员,是internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用telnet程序,用它连接到服务器,以使用服务器的硬件、软件和信息资源。

4.用户服务组信息资源

包括新闻组(usenet newsgroup)、电子邮件群(list serv)、邮件列表(mailing list)、专题讨论组(discussion Group)等。是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是因特网上进行交流和讨论的主要工具。新闻组是一种利用网络环境提供专题讨论服务的应用软件,是internet服务体系的一部分,在此体系中,有众多的新闻组服务器,它们接受和存储有关主题的消息供用户查阅。在新闻组上,每个人都可以自由发布自己的消息,不管是哪类问题、多大的问题,都可直接发布到新闻组上和成千上万的人进行讨论。这似乎和BBS差不多,但它比BBS有两大优势,一是可以发表带有附件的“帖子”(随着时代的发展,现在BBS也可以传附件了),传递各种格式的文件,二是新闻组可以离线浏览。但新闻组不提供BBS支持的即时聊天,也许这就是新闻组在国内使用不广的原因之一。

internet有多种电子邮件服务程序,如邮件传递、电子交谈、电子会议、专题讨论及查询信息等。其中,电子邮件群(list serv)是目前功能最强的通信讨论组管理软件;而用户邮件列表(mailing list)则可使用任何一种电子邮件系统来阅读新闻和邮件,并允许向能够做出响应的人发送邮件。当用户使用任何一种电子邮件系统将信息发给一个list serv或mailing list时,它就被发送到改组的所有成员处,是一对多的交流工具。

5.gopher信息资源

gopher是一种基于菜单的网络服务程序,能为用户提供广泛、丰富的信息,并允许用户以一种简单、一致的方式快速找到并访问所需的网络资源。gopher客户程序和gopher服务器相连接,并能使用菜单结构显示其他的菜单、文档或文件,并索引。同时可通过telnet远程访问其他应用程序。gopher协议使得internet上的所有gopher客户程序,能够与internet上的所有已“注册”的gopher服务器进行对话。由于快速的发展,如今的gopher的特性很类似于信息传播系统,它可以被用来传播任何信息,当然也可以被用来作为商业客户服务系统等。

8.1.3 网络信息资源组织方式

网络环境为信息资源的管理制造了空前复杂的环境,对信息资源的组织与管理提出了更高的要求。目前,使用较为普遍的网络信息资源组织方式主要有文件方式、主题树方式、数据库方式、超媒体方式,其中数据库方式与超媒体方式是网络环境下文献资源组织方式的主流。

1.数据库组织方式

即将所有获得的信息资源按照固定的记录格式存储组织,用户通过关键词及其组配查询就可以找到所需要的信息线索,再通过信息线索链接到相应的网络信息资源。其主要特点有:①能高速处理大量结构化和非结构化的数据。如今的关系数据库在DBMS(数据库管理系统)中增加了对图形、图像、声音、超文本等多媒体数据的存储、管理、获取和处理功能,实现了从数据管理到对象管理的扩展,大大提高了信息管理的效率;面向对象数据库比传统数据库包含更多的数据语义信息,对复杂数据对象的表达能力更强。②以信息项作为数据的最小存取单位。数据库技术既可以存取数据库中某一个或某一组数据字段,也可以存取一个或一组记录,还可以根据用户需求灵活地改变查询结果集的大小,从而降低网络数据传输的负载。数据库方式对于信息处理也更加规范化,特别是在大数据量的环境下,其优点更为突出,但它对用户提出了一定的要求,要求用户必须掌握一定的检索技巧,包括关键词及其组配的选择。数据库方式是当前普遍使用的网络信息资源的组织方式。

2.超媒体方式

超媒体方式是超文本技术与多媒体技术相结合的产物。它将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库或知识库中自由“航行”,找到所需要的任何媒体的信息或知识。超媒体方式在组织网络信息资源上的优点表现为:①具有联想式的信息组织方式。超媒体采用非线性的由节点和链组成的网状结构组织块状信息,类似于人类的联想记忆结构,用户可以在网络中主动浏览和“航行”。②具有图、文、声并茂的信息服务功能。超媒体技术把数字、文本、声音、图形、视频等有机地整合,方便地描述和建立各媒体信息之间的语义关系,能满足人们自然交流信息的过程。但是由于采用浏览的方式进行信息搜索,当超媒体网络过于庞大时,用户很难迅速而准确地定位于真正需要的信息节点上,也难以避免地会造成用户“迷航”的现象。因此,现代网络信息资源组织的方式最好是数据库方式和超媒体方式的结合,这也是网络信息资源组织的未来发展趋势。

8.2 搜索引擎

随着网络的发展,因特网上的资源以惊人的速度不断增长,人们在浩如烟海的信息面前无所适从,想迅速、准确地获取自己需要的信息,变得十分困难。为了解决用户的信息需求与网上资源的海量、无序之间的矛盾,20世纪90年代,网络信息资源检索工具应运而生,这就是搜索引擎。“搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。”

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎的工作原理可以阐述为:计算机程序通过扫描一定范围内每一篇文章或网页中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每篇文章或网页中出现的频率,对包含这些检索词的文章或网页进行排序,最后输出排序的结果。换句话说,就是根据用户的查询请求,将含有特定单词的文章或网页列出来。

每个独立的搜索引擎都有自己的网页抓取程序(spider)。spider顺着网页中的超链接,连续地抓取网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。完成这些工作,就可以提供检索服务了。用户输入关键词,搜索引擎从索引数据库中找到匹配该关键词的网页。为了便于用户判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

8.2.1 搜索引擎的分类

按照工作方式或者检索机制,搜索引擎主要可以分为目录型搜索引擎、索引型搜索引擎和元搜索引擎。

1.目录型搜索引擎

目录型搜索引擎实质就是网站目录索引,就是将网站分门别类地存放在相应的目录中。用户提交网站后,目录编辑人员会亲自浏览用户的网站,由专业信息人员以人工或半自动的方式搜索网络信息资源,并将搜索、整理的信息资源按照一定的分类体系编制成一种等级结构式目录。这类搜索引擎往往根据资源采集的范围设计详细的目录体系,检索结果是网站的名称、地址和内容简介。因此用户在查询信息时,可以按分类目录逐层查找。也可以选择关键词搜索,如果以关键词进行搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站的,只不过其中的人为因素要多一些。

原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用open directory目录提供分类查询。而像雅虎(Yahoo)这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪网易等;而另外一些则默认的是网页搜索,如雅虎。

目录型搜索引擎的特点是分类清晰,所收录的网络资源经过专业人员的鉴别和选择,确保了检索的准确性。但是,索引型搜索引擎的数据库规模相对较小,并且系统更新的速度受工作人员的限制,可能导致检索内容的查全率不高。

2.索引型搜索引擎

索引型搜索引擎也称为机器人搜索引擎或关键词搜索引擎。它实际上是一个网站,与普通网站不同的是,它的主要资源是它的索引数据库,索引数据库的资源主要以WWW资源为主,还包括电子邮件地址、用户新闻组、FTP、gopher等资源。

搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。依靠超链接和HTML代码分析获取网页信息内容,并采用自动搜索、自动标引、自动文摘等规则和方式来建立和维护其索引数据库。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量等,计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

索引型搜索引擎由自动跟踪索引软件形成索引数据库,数据库容量非常大,收录、加工信息的范围广、速度快,能向用户及时提供最新信息。但是由于标引过程缺乏人工干预,准确性较差,导致检索结果的误差较大。

索引型搜索引擎的特点是搜全率比较高。

3.元搜索引擎

1995年,一种新的搜索引擎形式——元搜索引擎(meta search engine)出现了。元搜索引擎又称集合型搜索引擎。元搜索引擎将多个独立的搜索引擎集成到一起,用户只需提交一次搜索请求,由元搜索引擎负责转换处理,之后提交给多个独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果进行聚合、去重和排序等处理,将结果返回给用户。相对于元搜索引擎,可被利用的独立搜索引擎成为“源搜索引擎”(source search engine)或“成员搜索引擎”(component search engine)。元搜索引擎一般都没有自己的网络机器人及数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,通常都有自己研发的特色元搜索技术。

元搜索引擎的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有Metacrawler、Dopile、Ixquick、搜客等。

在搜索引擎发展进程中,元搜索引擎有一种初级形态称为集合式搜索引擎(all-in-one search page)。集合式搜索引擎以其方便、实用在网络搜索工具家族中占据一席之地。集合式搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,检索时需点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同的页面显示,其实质是利用网站链接技术形成的搜索引擎集合,而并非真正意义上的搜索引擎。集合式搜索引擎无自建数据库,不需研发支持技术,也不能控制和优化检索结果。元搜索引擎的基本工作流程如图8-1所示。

图8-1 元搜索引擎的基本工作流程

8.2.2 搜索引擎的发展趋势

现在的搜索引擎以关键字搜索为主,人们将关键字输入搜索框以获取相关信息,但事实上,整个流程并没有考虑到搜索者的行为习惯、教育程度、社会地位等个性化背景,加之推送搜索结果方式的单一,这使得目前的搜索引擎所达到的效果,只实现了人们期望值的5%~10%。因此未来的搜索引擎的发展趋势会进一步向智能化、个性化发展。

1.智能化

智能检索是利用分词词典、同义词典、同音词典改善检索效果,同时可以在概念层面上进行辅助查询,通过主题词典、上下位词典、相关同级词典检索处理,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

知识搜索是搜索引擎发展进入智能化阶段的一个过程,就是建立在以用户需求为基础上的知识整合传播。智能搜索与机器搜索的不同在于,它建立了完善的互动机制,例如评价、交流、修改等。当用户提出一个问题之后,可以利用很多人的智慧帮助用户进行搜索,然后给出用户最准确的答案。对非专业人士来说,搜索引擎提问框往往显得过于宽泛。很多用户搜索时,都带着问题,因此爱用问句。面对用户的搜索长串,知识搜索确实是最好的解决途径。这也是搜索引擎未来的一个重要发展方向。

2.个性化

个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。可以通过搜索引擎的注册服务的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对不同的个人得出不同的搜索结果。

网络搜索引擎针对人性化提出的改进,必然会为传统搜索引擎发展开辟出新空间。使用户的个性化的需求得到满足。绝大部分用户在进行信息查询时,并不会特别关注搜索结果的多少,而更看重结果是否与自身的需求相吻合。因而对于动辄便有几十万、几百万文档的搜索结果而言,不仅不便于使用,还需要用户花费大量的时间进行筛选。基于此现象,将用户感兴趣、有用的信息优先提交,通过挖掘用户浏览模式的方式提供个性化搜索,必将是搜索引擎未来的发展趋势。

8.2.3 常用搜索引擎

1.目录型搜索引擎

(1)雅虎分类目录(http://search.yahoo.com)

雅虎是全球第一家提供internet导航服务的网站,是世界上最著名的网络资源目录。雅虎的分类目录是最早的分类目录,也是目录式搜索引擎的典型代表。雅虎主要采用人工方式采集和处理网络信息资源,由信息专家编制主题目录,按主题目录对网络资源进行筛选、归类和组织,并编制索引数据库,利用人的智力克服单纯由搜索软件自动分类所带来的缺陷,增强了分类的合理性,提高了检索的准确性,从而保证了目录编制的质量。

雅虎主要提供主题分类目录浏览检索和关键词检索两种检索方式。

主题分类的信息组织方式是一种按层次逐级分类的类目体系。在基本大类之下细分不同层次的子类目,层次越深,主题专指性越强,逐级链接,最后与其他的网站、web页、新闻组资源、FTP站点等相链接,从而形成一个由类目、子类目构成的可供浏览的相当详尽的目录等级结构,可以逐层进行检索,也可以直接输入关键词对分类网站进行搜索(图8-2)。

图8-2 Yahoo搜索引擎界面

1999年9月,雅虎中国网站(www.yahoo.com.cn)开通。2005年10月,中国雅虎由阿里巴巴集团全资收购。中国雅虎开创性地将全球领先的互联网技术与中国本地运营相结合,并一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验。目前中国雅虎网站更加专注为广大网民提供互联网门户资讯、邮箱、搜索等基础应用服务。中国雅虎依靠其强大的国际品牌资源、领先的网络技术和丰富的在线营销经验,位居国内同行业网站前列。

以关键词搜索时,网站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。

雅虎的分类检索与主题检索之间是可以自由跳转的,这就提供了一个可以全方位检索信息的平台。

(2)Galaxy(http://www.galaxy.com)

Galaxy是由商业网络通信服务公司EINet于1994年1月创建的,目前属于Logika公司。它是internet上较早按专题检索WWW资源,提供全球信息服务的目录型网络信息资源检索工具之一。Galaxy最初成功的最大原因在于它不仅包含web搜索,同时包含gopher 和telnet搜索。

Galaxy收录的网络资源有网站、网页、新闻、域名、公司名录等。它将所收录的网络资源分为16大类,包括商业、社区、技术、政府、人文学科、娱乐、医学、参考、科学、社会科学、购物、旅行、地区、体育、健康、家居(图8-3)。

图8-3 Galaxy搜索引擎界面

网站提供主题分类目录浏览检索和关键词检索两种检索方式。

2.索引型搜索引擎

(1)百度搜索

百度(Baidu)是国内最早的商业化全文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。2005年,百度在美国纳斯达克上市,目前,百度已经成长为全球最大的中文搜索引擎。

百度由最初的常用的新闻网页等搜索产品出发,致力于开发更多的产品。目前已经有数十种产品投入使用。

作为全球最大的中文搜索引擎公司,百度一直致力于让网民更便捷地获取信息,找到所求。用户通过百度主页,可以瞬间找到相关的搜索结果,这些结果来自于百度超过数百亿的中文网页数据库。秉承“用户体验至上”的理念,除网页搜索外,百度还提供MP3、图片、视频、地图等多样化的搜索服务,给用户提供更加完善的搜索体验,满足多样化的搜索需求。

“互联网的中心正在从以‘信息’为中心变成以‘信息+人’为中心,从百度空间的推出,到百度推出搜人平台,可见百度用户以人为主的展现和沟通需求非常凸显。”百度产品副总裁俞军表示:“百度‘搜索+社区’的产品体系,从百度贴吧、知道、空间等在线社区产品,扩展到百度Hi这样的客户端社区产品,进一步强调了人与人之间的沟通,相信这也是搜索未来发展的大趋势。”

信息获取的最快捷方式是人与人直接交流,为了让那些对同一个话题感兴趣的人们聚集在一起,方便地展开交流和互相帮助,百度贴吧、知道、百科、空间等围绕关键词服务的社区化产品也应运而生,而百度Hi的推出,更是将百度所有社区产品进行了串联,为人们提供一个表达和交流思想的自由网络空间。

此外,百度也致力于电子商务的发展,比如百度联盟、百度推广等的开发。

随着无线网络的发展以及手机用户的增多,百度顺应时势,推出了手机地图等产品,这种与时俱进、不断进取的精神,使得百度在搜索市场上保持了强大的生命力,以及不断增长的市场份额。

百度通过搜索引擎把先进的超链接分析技术、内容相关度评价技术结合起来,在查找的准确性、查全率、更新时间、响应时间等方面具有优势。用户可以通过百度主页,在瞬间找到相关的搜索结果。同时,许多搜索联盟会员,通过各种方式将百度搜索结合到自己的网站,使用户不必访问百度主页,在上网的任何时候都能进行百度搜索。百度还提供WAP与PDA搜索服务,用户可以通过手机或掌上电脑等无线平台进行搜索(图8-4)。

图8-4 百度产品

(2)Google搜索

Google(http://www.google.com)是斯坦福大学的两位博士生Larry Page与Sergey Brin于1998年9月在美国硅谷共同创建的,旨在提供全球最优秀的搜索引擎服务,通过其强大、迅速而方便的搜索引擎,为用户提供准确、翔实、符合需要的信息。目前越来越多的公司都依赖Google来加强其网站的搜索能力。继2000年7月Google代替Inktomi成为雅虎公司的搜索引擎后,2002年10月雅虎正式宣布与Google续约,继续采用Google提供网页搜索服务,同时,它将原来默认的目录网站搜索结果改为网页搜索。

在搜索框内输入需要查询的内容,单击“Google搜索”按钮进行检索。Google具有自己独特的语法结构,它不支持and、or和“*”等符号的使用,而是自动带有and功能。Google不区分英文字母大小写。用户也可以使用Google的高级搜索功能,在高级搜索方式下,用户可以确定搜索条件,除了可对关键词的内容和匹配方式进行限制外,还可以从语言、文件格式、日期、字词位置、网域、使用权限、搜索特定网页和特定主题等方面进行检索条件和检索范围的限定。此外,Google允许用户按照个人爱好设置“使用偏好”,并可保存以供将来使用(图8-5)。

图8-5 Google高级检索界面

Google学术搜索:在Google的主界面,点击“更多”菜单里面的“学术搜索”,或者直接在地址栏里输入http://scholar.google.com都可以进入学术搜索。

2006年1月,Google公司宣布将Google学术搜索(Google scholar)扩展至中文学术文献领域。Google学术搜索是一项免费服务,可以帮助快速寻找学术资料,如专家评审文献、论文、书籍、预印本、摘要以及技术报告。作为此次扩展的一部分,Google学术搜索在索引中涵盖了来自多方面的信息,信息来源包括万方数据资源系统、维普资讯,著名大学出版的学术期刊、公开发行的学术期刊、中国大学的论文以及网上可以搜索到的各类文章。Google Scholar同时提供了中文版界面(http://scholar.google.com),供中国用户更方便地搜索全球的学术科研信息。

Google学术搜索根据相关性对搜索结果进行排序,最相关的信息显示在页面上方。在可能的情况下,Google会搜索全文,而不仅仅只是摘要部分,给予用户对学术内容最为全面深入的搜索,与此同时也加强了搜索结果的相关性。

3.元搜索引擎

(1)Ixquick(http://ixquick.com)

Ixquick由一家荷兰公司Surfboard Holding BV于1998年在纽约建立。利用Ixquick进行搜索时,用户实际上是在同时利用多个流行的搜索引擎展开搜索。其搜索界面如图8-6所示:

图8-6 Ixquick搜索界面

从web搜索的覆盖范围看,Ixquick可同时调用包括AOL、AltaVista、Direct Hit、Yahoo等在内的14个主流搜索引擎,基本可以保障其信息源的全面性和可靠性。在检索性能的完善程度上,Ixquick可以说是独树一帜,突破了传统元搜索引擎在这方面的局限性,主要表现在:支持各种基本的和高级的检索功能,包括关键词检索、短语检索、截词检索、布尔检索、概念检索、自然语言检索、指定字段检索、包含(+)或排除(-)检索等;尤其难能可贵的是,Ixquick知道哪些搜索引擎能够处理短语、布尔逻辑、截词等等,Ixquick将负责把“翻译”后的查询请求直接递交到那些能够处理这些复杂请求的搜索引擎中,实现更加有针对性的搜索服务,瞄准更加高、精、专的检索结果。另外,为了方便用户了解和使用这些高级检索功能,Ixquick以表格的形式和具体的检索实例,给用户提供了最清晰和实用的帮助。

Ixquick对于目标搜索引擎采取充分肯定和接纳的态度,以该记录被多少个搜索引擎所青睐为基本衡量标准,独创了“星星体系”。Ixquick只获取每个搜索引擎返回的前十条记录,如果一条记录被一个搜索引擎列入前十位了,它将获得一颗星星,如果被两个搜索引擎列入前十位了,它将获得两颗星星,依此类推。谁获得的星星最多,Ixquick自然认为它就是最好的,将被安排在检索集合的首要位置上。正是由于采用了这样一种机制,保证了Ixquick有异乎寻常的检索速度和准确率。

支持全球搜索,支持甚至包括中文、日文和朝鲜语在内的18种语言。无论用户使用何种语言,Ixquick都会对本地和国际性的搜索引擎调用后集中搜索,以便您能准确找到所需的信息。

(2)MetaCrawler(http://www.metacrawler.com)

MetaCrawler是1994年由华盛顿大学的Erik Selberg和Oren Etzioni开发的,是最早的一个多元型搜索引擎,曾被评为综合性能最优良的多元搜索引擎。2000年加入InfoSpace Network服务,隶属于InfoSpace公司(图8-7)。

图8-7 MetaCrawler搜索界面

8.3 网络学术信息检索

网络学术资源是指网络资源中进入学科领域,并具有学术价值的那部分资源。由于信息来源广泛,所以网络学术资源信息量极大,这也导致了其内容庞杂,质量不一。网络学术资源是对商业数据库的补充,也是我们学习书本外知识的重要来源。其内容大致可以分为网络资源指南、开放获取资源、专业博客以及其他来源的网络资源。

8.3.1 网络资源指南

1.各图书馆专业资源整合

许多著名大学图书馆及公共图书馆是网络学术信息资源研究的前沿,是十分可靠的参考信息的发源与集散地。一些著名图书馆的网络资源导航做得非常出色,具有很高的参考价值。

(1)清华大学图书馆推荐网络学术站点系统(http://wr.lib.tsinghua.edu.cn/ref)

网络免费学术资源是对图书馆现有订购资源的补充,为广大读者尤其是学生提供了容易获取的信息资源。本站点系统汇集了一批由图书馆馆员在浩瀚的网络中精挑细选出来的优秀的学术网络资源,并按学科导航和类型导航进行了组织揭示,力求简明实用。可以依据所学专业,查找需要的文献资料;也可以根据所需信息的类型,在预印本、学位论文、标准等目录下浏览。另外,此站点还特别推出了不少贴近学生生活的实用资源,为读者带来国内外的精品课程,为留学申请工作提供帮助。

“推荐网络学术站点”功能全面,分类清晰,可通过一级目录、二级目录或站内检索快速查找所需的资源。另一个突出特色是设计有多种互动功能,读者可以对使用过的站点评分评级,也可以留言点评。同时,系统提供了资源推荐功能,让用户参与到系统资源建设中,点击左上方“推荐网络资源”链接,填写站点名称、网址、类型、分类、描述等信息即可提交站点。读者发表的评论和推荐的站点,经管理员审核后发布。这样就聚合了读者的力量,“人人为我,我为人人”,更好地实现网络资源的整合与利用(图8-8)。

图8-8 清华大学图书馆推荐网络学术站点系统

(2)南京大学图书馆网络资源导航系统(http://lib.nju.edu.cn/docs/main.php)

本系统搜集了许多开放存取期刊、学术搜索引擎、预印本服务的网站,并按照学科列举了数学、物理、化学等学科的预印本服务器地址,列举了一部分“深网资源”。深网资源是用户通过一般搜索引擎无法获取的那一部分网络资源,但是它们的数据量又十分庞大,并具有较高的权威性和较高的质量。

(3)上海交通大学图书馆的网络导航系统(http://www.lib.sjtu.edu.cn/view.do?id=145)

包括了环境、材料等16类重点学科网上资源导航以及免费全文网站导航、国内外主要图书馆站点导航等。

(4)CALIS重点学科网络资源导航库

“重点学科网络资源导航数据库”是国家“211工程”中国高等教育文献保障系统(CALIS“十五”重点建设项目之一)。该项目以教育部正式颁布的学科分类系统作为构建导航库的学科分类基础,建设一个集中服务的全球网络资源导航数据库,提供重要学术网站的导航和免费学术资源的导航。

导航库建设的学科范围涉及除军事学(大类)、民族学(无重点学科)之外的所有一级学科,共78个。

2.学科信息门户网站

信息门户网站能够提供大量按不同分类方法组织的网站链接及网站内容描述,用户可以根据关键词搜索或主题领域浏览等方式寻找所需的网站地址,从而发现未知的、有价值的资源。国内外比较有代表性的门户网站如:PINAKES是链接各类门户网站的门户,通过它的门户列表可以找到国外一些比较常用的学科门户网站;EEVL是为高等教育和科研团体提供高质量的工程资源的门户服务网站;DutchESS荷兰电子主题服务门户是一个网上主题服务门户资源,该门户提供对网上资源的索引,为学生和学术科研者提供高质量的,与学术界相关的资源;中国国家科学数字图书馆(CSDL)学科信息门户网站是国内比较有影响力的门户网站,分为数学物理学科信息门户、化学学科信息门户、生命科学学科信息门户、资源环境学科信息门户、图书情报学科信息门户等。

8.3.2 开放获取(OA)资源

开放存取(open access,简称OA)是国际科技界、学术界、出版界、信息传播界为推动科研成果利用网络自由传播而发起的运动,是在基于订阅的传统出版模式以外的另一种选择。这样,通过新的数字技术和网络化通信,任何人都可以及时、免费、不受任何限制地通过网络获取各类文献,包括经过同行评议过的期刊文章、参考文献、技术报告、学位论文等全文信息,用于科研教育及其他活动。从而促进科学信息的广泛传播、学术信息的交流与出版,提升科学研究的共享程度,提高科学研究的效率,保障科学信息的长期保存。

开放获取资源是网络上重要的共享学术信息资源,是获取学术信息的一种新模式。有研究表明,在很多学科领域,开放获取的文章比非开放获取的文章具有更大的研究影响力。

信息资源的开放获取有4个途径。

(1)开放获取仓储(open access repository)

对于有版权,但是出版社允许进行自存储(self-archiving)的作品,作者可以放到信息开放存取仓库中,例如论文、专著等。对于没有版权的作品,作者可以直接放到信息开放存取仓储中,例如讲义、PPT等。

(2)开放获取期刊(open access journals)

是一种论文经过同行评审的、网络化的免费期刊,全世界的所有读者可以从此类期刊上获取学术信息,并且没有价格及权限的限制。

(3)个人网页

对于有版权,但是出版社允许进行自存储的作品,作者可以放到个人网页上。对于没有版权的作品,作者可以直接放到个人网页上。

(4)公共信息开放使用,比如专利、标准等

关于开放获取的资源越来越多,下面列举几个国内外的开放获取地址。

1.国内的开放获取资源

(1)中国科技论文在线(http://www.paper.edu.cn)

中国科技论文在线是经教育部批准,由教育部科技发展中心主办创建的科技论文网站,每日更新。中国科技论文在线根据文责自负原则,审核作者所投论文是否遵守国家相关法律,是否具有一定学术水平,是否符合中国科技论文在线的基本投稿要求,如通过审核,将在一周内发表。此外,还采取“先公开,后评审”的方式,聘请同行专家对在线发表的论文进行评审,并将评审出的优秀论文收录在《中国科技论文在线优秀论文集》中。中国科技论文在线可为在本网站发表论文的作者提供该论文发表时间的证明,并允许作者同时向其他专业学术刊物投稿,以使科研人员新颖的学术观点、创新思想和技术成果能够尽快对外发布,并保护原创作者的知识产权。

中国科技论文在线将服务的对象分为注册用户和非注册用户两类。非注册用户则只能以访客的身份,对本网站进行部分检索、浏览和下载。注册用户可以使用本网站的所有功能,享受更多便捷服务,包括投稿、评论、定制、添加私人标签、收藏站内外各类资讯、加入感兴趣的学术圈子等用户个性化功能,用户可以在个人空间中进行投稿,使用模板写好论文后,只需选择文章语种、学科、是否评审等简单几项内容,无需再填写论文题目、摘要、资助及多位作者信息,即可上传论文,文章通过初审并编辑后即可发表在网上。如文章被其他期刊收录,可以填写收录情况,同时用户还可以自行打印刊载证明及申请打印邮寄星级证明。

网站提供简单检索、高级检索以及论文浏览三种检索方式。简单检索提供对题名、作者、摘要等的简单搜索;高级检索提供全文、题目、作者、作者单位、摘要、关键词、语言、发表时间等的组配检索,并提供相关度、发布时间、下载次数等三种排序方式。网站开辟有首发论文、优秀学者论文、自荐学者论文、科技期刊论文等栏目,可以按照类别分类浏览。

(2)中国预印本服务系统(http://www.nstl.gov.cn/preprint/main.html?action=index)

中国预印本服务系统于2004年3月15日正式开通,该系统由中国科学技术信息研究所与国家科技图书文献中心联合建设,是一个以提供预印本文献资源服务为主要目的的实时学术交流系统。

该系统由国内预印本服务子系统和国外预印本门户(SINDAP)子系统构成。国内预印本服务子系统主要收藏的是国内科技工作者自由提交的预印本文章,可以实现二次文献检索、浏览全文、发表评论等功能。

系统实现了用户自由提交、检索、浏览预印本文章全文、发表评论等功能。用户可以经过简单的注册后直接提交自己的文章电子稿,并在随后根据自己的需要和改动情况追加、修改所提交的文章。系统将严格记录作者提交文章和修改文章的时间,可以向作者提供发表文章时间的证明,便于作者在第一时间公布自己的创新成果。由于中国预印本服务系统只对作者提交的文章进行简单审核,因而具有交流速度快、可靠性高的优点,避免了由于学术意见不同等原因而导致的某些学术观点不能公之于众的遗憾。

系统收录的预印本内容主要是国内科研工作者自由提交的科技文章,一般只限于学术性文章。科技新闻和政策性文章等非学术性内容不在收录范围之内。系统的收录范围按学科分为五大类:自然科学;农业科学;医药科学;工程与技术科学;图书馆、情报与文献学。除图书馆、情报与文献学外其他每一个大类再细分为二级子类,如自然科学又分为数学、物理学、化学等。

中国预印本服务系统完全按照文责自负的原则进行管理。系统不拥有文章的任何版权或承担任何责任,在系统中存储的文章,作者可以自行以任何方式在其他载体上发表。中国预印本服务系统鼓励作者将预印本文章投递至传统期刊发表,一旦文章在传统期刊上发表,作者可以在预印本系统中修改该文章的发表状态,标明发表期刊的刊名和期号,以方便读者查找。

(3)电子预印本奇迹文库(http://www.qiji.cn/eprint)

奇迹文库是国内最早的中文预印本服务,创建于2003年8月,是由一群中国年轻的科学、教育与技术工作者创办的非盈利性质的网络服务项目。奇迹文库是完全由科研工作者个人维护运作的预印本文库,在经济和行政上不依赖于任何学术机构。其目的是为中国研究人员提供免费、方便、稳定的e-print平台,并宣传提倡开放获取(open access)的理念。目前奇迹电子文库设有数学、物理学、化学、材料科学、生命科学和计算机科学等分类。

(4)Cnplinker(http://cnplinker.cnpeak.edu.cn或http://cnplinker.cnpeak.com)

由中国图书进出口(集团)总公司开发并提供的国外期刊网络检索系统,于2002年底开通运行。目前本系统共收录了国外1 000多家出版社的18 000多种期刊的目次和文摘数据,并保持时时更新。其中包括7 000多种“open access journals”供用户免费下载全文。除为用户提供快捷灵活的查询检索功能外,电子全文链接及期刊国内馆藏查询功能也为用户迅速获取国外期刊的全文内容提供了便利。

2.国外的开放获取资源

(1)e-print arXiv(http://arxiv.org/)

e-print arXiv是美国国家科学基金会和美国能源部资助,于1991年8月由美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的电子预印本文献库。其建设目的在于促进科研成果的交流与共享,帮助科研人员追踪本学科最新研究进展,避免研究工作重复等。主站点设在康奈尔大学,在世界各地设有17个镜像站点,我国在中科院理论物理研究所设有镜像站点。

至2011年,e-print arXiv建立已经有20年的历史了,其文献量呈稳步增长趋势。目前arXiv含有大约70万篇论文,每年收到大约75 000篇论文。每周大约有40万个不同的人下载大约100万次论文。

arXiv目前包含物理学、数学、非线性科学、计算机科学等4个学科。收录的论文除作者提交的外,还包括美国物理学会(American Physical Society)等12种电子期刊全文,但不包括非学术性信息,如新闻或政策性文章等。著录项目包括:文献出处、收录时间、arXiv存档号、标题、作者、文摘、学科主题分类,并提供参考文献和被引用情况的链接。数据库的全文文献有多种格式(例如PS、PDF、DVI等),一般可选择较为通用PDF格式浏览全文。

收入该数据库中的论文可以随时受到同行的评论,论文作者也可以对这种评论进行反驳。论文作者在将论文提交e-print arXiv的同时,也可以将论文提交学术期刊正式发表。论文一旦在某种期刊上发表,在e-print arXiv的该论文记录中将加入正式发表期刊的有关信息。由于arXiv采取双向交流的方式,即用户不但可通过WWW界面或E-mail方式检索或获取文献,而且还能随时上传文献,因此arXiv的更新频率很高,几乎是每日更新。

arXiv界面提供浏览式检索和布尔逻辑检索功能。

(2)DOAJ(Directory of Open Access Journal)(http://www.doaj.org)

2003年5月由瑞典的德隆大学图书馆(Lund University Libraries)开发,最初收了350种期刊,截至2010年底已收录开放存取期刊5 874种。该目录收录的均为学术性、研究性期刊,具有免费、全文、高质量的特点。其质量源于所收录的期刊实行同行评审,或者有编辑作质量控制,对学术研究有很高的参考价值(图8-9)。

图8-9 DOAJ检索界面

DOAJ按期刊的学科主题分为17类,包括agriculture and food sciences,arts and architecture,biology and life sciences,business and economics,chemistry,earth and environmental sciences,general works,health sciences,history and archaeology,languages and literatures,law and political science,mathematics and statistics,philosophy and religion,physics and astronomy,science general,social sciences,technology and engineering.

DOAJ提供期刊检索和文献检索。在DOAJ首页Journals检索框中输入检索条件可以检索期刊。关于文献检索,DOAJ只提供一种文献检索方式:提供两组检索词输入框,通过下拉菜单来限定检索词出现的字段,包括所有范围、题名、期刊题名、国际标准刊号、作者、关键词、摘要;两组检索词之间可选择下拉式布尔逻辑算符“and、or、not”进行组配;检索式如果多于一个词,将被作为词组处理。

检索后,系统列出检索结果的简要信息,默认每页显示10条结果,可点击浏览摘要信息和全文。全文以PDF格式或HTML格式显示。

(3)HighWire press(http://highwire.stanford.edu)

是全球最大的提供免费全文的学术文献出版商,于1995年由斯坦福大学图书馆创立。目前已收录电子期刊1 500多种,文章总数已达600多万篇,其中超过210万篇文章可免费获得全文,这些数据仍在不断增加。通过该界面还可以检索Medline收录的4 500多种期刊中的1 200多万篇文章,可看到文摘题录。HighWire press收录的期刊覆盖以下学科:生命科学、医学、物理学、社会科学(图8-10)。

HighWire press收录的期刊提供检索和浏览两种查找方式。

图8-10 HighWire press检索界面

检索提供的检索字段有:题名、摘要、作者等,并可选择各字段内输入的检索词的关系:any(相当于or)、all(相当于and)、phrase(输入的为词组)还可限制检索结果的年限和文献类型(所有文章、只是评论文章)。

检索结果的显示格式有标准格式、压缩格式,可选择每页显示的记录数,选择结果排序方式(按相关度、按出版时间)。

浏览功能提供按题名、出版者、主题3种方式进行浏览。

该网站提供免费注册的功能,注册后可以使用“my highwire”窗口以及“alert”功能。

(4)开放获取期刊门户(Open J-Gate)(http://www.openj-gate.com)

Open J-Gate提供基于开放获取期刊的免费检索和全文链接。这些期刊是综合类的,也包含有生物医学类期刊。它由Informatics(India)Ltd于2006年创建并开始提供服务。其主要目的是保障读者免费和不受限制地获取学术及研究领域的期刊和相关文献

Open J-Gate的主要特点有:

①资源数量大。目前为止,Open J-Gate系统地收集了全球约9 372种期刊,包含学校、研究机构和行业期刊。其中超过6 000种学术期刊经过同行评议(peer-reviewed)。

②更新及时。Open J-Gate每日更新。每年有超过30万篇新发表的文章被收录,并提供全文检索。

③检索功能强大,使用便捷。Open J-Gate提供3种检索方式,分别是快速检索(quick search),高级检索(advanced search)和期刊浏览(browse by journals)。在不同的检索方式下,用户可通过刊名、作者、摘要、关键字、地址、机构等进行检索。检索结果按相关度排列。

④提供期刊“目录”浏览。用户通过该浏览,可以了解相应期刊的内容信息

8.3.3 专业论坛、博客

1.学科专业论坛(BBS)

论坛作为一个网络交流的公开场所,可以自由地发表自己的观点,这有利于学科争鸣的开展,但是正是因为论坛的开放性,在利用这些资料的时候就要具有鉴别的眼光。

(1)诺贝尔学术资源网(http://bbs.ok6ok.com/index.php)(图8-11)

图8-11 诺贝尔学术资源网主页

(2)北大中文论坛(http://www.pkucn.com/index.php)(图8-12)

图8-12 北大中文论坛主页

2.学术博客

(1)上海交通大学图书馆学科博客

在学科馆员制度不断发展的推动下,使得针对学科服务的学科博客应运而生。比如上海交通大学图书馆的学科博客,针对不同的学科开设博客(图8-13)。

图8-13 上海交通大学图书馆学科博客

在学科博客中,介绍了相关学科的发展动态,学科的国际或者国内的会议情况,学科的相关活动,最新的研究成果等,是了解学科前沿状况的很好途径(图8-14)。

图8-14 上海交通大学图书馆学科博客

(2)专家个人主页或博客

博客(blog),又叫“网络日志”,它是一种特别的网络个人信息的发布形式,一个blog就是一个网页,博客和个人主页并没有本质上的区别。方兴东在《博客——E时代的盗火者》中说过:blog是“个人主页2.0版”,博客就是一个带有留言和发布功能的个人主页。个人主页需要一定的技术和昂贵的维护费用以及足够的信息资源。博客却不同,博客技术是通过一些软件工具,帮助任何一个普通用户实现零编辑、零技术、零成本、零形式的网上个人发表。博客自身的低成本进入以及成功的商业运作模式决定了博客能走出传统个人主页的困境,迅速发展成为网络上重要的个人信息发布平台。个人(或单位)将日常生活、工作、学习中值得记录的人和事,个人的感悟与思考,所积累的知识与信息等内容,以文字、图片、音频、视频等形式发布在网上,与大家共享信息资源,就是“weblog”或“blogger”。博客有一项功能,就是可以超链接指向其他的博客(也可以是其他地方),充分利用超链接,拓展日志知识范围以及与其他博客的联系,blogger通过这个功能聚集,形成一个个“知识分享(共用)”的团体。

8.3.4 其他网络学术信息

1.天网(Maze)

天网(Maze)是北京大学网络实验室于2003年开发的一款资源和功能非常强大的PIC (personal information center)个人信息中心文件系统。目的是解决当前FTP服务器的缺陷以及它所导致的在FTP搜索引擎内找到资源却无法有效下载的问题,为广大网友提供一种文件共享的新方法、文件下载的新途径。相比其他P2P软件,天网更加注重的是以人为本,诚信交流的原则。因为在天网的共享资源里面具有极其多的学术文件,集文件的共享、查询、下载为一身,既是网上资源搜索的强力引擎,也是资源下载的利器,不仅可以通过天网的共享功能直接下载,还可以像其他BT软件一样通过“种子”的发布达到资源共享及下载的目的。

2.BT

BT是一种互联网上新兴的P2P传输协议,全名叫“BitTorrent”(比特流)。最初的创造者是Bram Cohen,现在则独立发展成一个有广大开发者群体的开放式传输协议。其好处是不需要资源发布者拥有高性能服务器就能迅速有效地把发布的资源传向其他的BT客户软件使用者,而且大多数的BT软件都是免费的。

3.eMule

eMule是一个开源免费的P2P文件共享软件,基于eDonkey2000的eDonkey网络,遵循GNU通用公共许可证协议发布,运行于Windows下。

2002年5月13日,本名亨德里克·布雷特克鲁兹(Hendrik Breitkreuz)的Merkur,不满意当时的eDonkey2000客户端,并且相信自己能做出更出色的P2P软件,于是便着手开发了一款新的P2P共享软件。他凝聚了一批原本在其他领域有出色发挥的程序员在他的周围,eMule工程就此诞生。他们的目标是将eDonkey的优点保留下来,加入新的功能,并使图形界面变得更好。与之前的eDonkey2000客户端相比,eMule能够连接eDonkey和Kad两个网络,有较快的下载、损坏数据恢复功能,有奖励频繁上传的用户的积分系统。另外,eMule以zlib压缩格式传输数据以节约带宽。

思考题

1.网络信息资源有哪些特点?

2.按照所采用的网络传输协议,网络信息资源有哪些类型?

3.按照工作方式或者检索机制,搜索引擎主要可以分为哪些类型?

4.请比较目录型搜索引擎和索引型搜索引擎。

5.什么叫元搜索引擎?

6.试述网络学术信息检索有哪些途径。

7.请列举国外的开放获取资源门户网站。

8.请列举国内的开放获取门户网站。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈