首页 理论教育 网络信息的获取主要可以通过以下几种方式

网络信息的获取主要可以通过以下几种方式

时间:2022-11-04 理论教育 版权反馈
【摘要】:因而,人们在网络中需要一种统一的、高效的访问和利用信息的工具,以及高质量信息的获取途径,数字图书馆正好适应了人们的这种需求[16]。

4.5.3 网络信息的获取

针对网络信息的特点,以及目前网络应用工具的发展现状,对于网络信息的获取,主要可通过以下几种方式来进行。

4.5.3.1 索引

互联网提供了海量信息资源,搜索引擎技术可以帮助我们快速准确甚至个性化地从海量信息中挑选出需要的信息。作为网络信息组织的重要方式,同时也是网络信息检索的重要工具,搜索引擎通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,它一般由三部分组成:①信息搜索器,其功能是在互联网中漫游,对网页信息进行识别和筛选;②索引器,其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器,其功能是接纳用户查询请求,根据用户查询关键词在索引库中匹配检索相应文档,然后根据一定顺序(如字母顺序、时间、相关度等)将符合要求的结果排序输出,反馈给用户。

按收录资源的范围可将搜索引擎大致分为通用型搜索引擎和专业型搜索引擎(或垂直型搜索引擎)。通用型搜索引擎以不同主题和类型的资源为搜索对象,组织信息覆盖范围广,使用用户广泛,如我们熟悉的Google、百度、Yahoo!等就是通用型搜索引擎的典型代表。由于通用型搜索引擎覆盖信息广泛,专指性差,一些专业型的搜索引擎开始出现,他们专门采集某一学科、某一主题、某一行业范围的信息资源,并用更为详细和专业的方法对信息资源进行标引和描述。这类引擎包括通用型搜索引擎推出的专业搜索频道,如百度的音乐搜索,Google的图书搜索、学术搜索、购物搜索等;还包括专门的独立垂直型引擎,如学术搜索“读秀”(http://www.duxiu.com),旅游专业搜索引擎“去哪儿”(http://www.qunar.com)、“游多多”(http:// www.yododo.com),购物搜索引擎Bizrate(http://www.bizrate.com)、MySimon(http://www.mysimon.com)等。这些专业型的垂直型引擎对分门别类的信息各司其职,对于我们查找获取相关领域的特定信息具有重要的价值。

关于搜索引擎性能的评价,通常需要考察搜索引擎的收录范围与数据库容量、数据更新频率、检索功能、检索效果(响应时间、查全率、查准率、链接可靠性等)、检索结果的显示、用户友好性、其他功能和服务等各个方面的指标。

4.5.3.2 数字图书馆

随着计算机技术和网络技术的发展,网络互联使访问分散在各处的信息资源成为可能。从局部来看,如某个文件、利用超文本技术相链接的相关资源、某个网站、某个数据库或某个编目记录集合是有控制的、相对集中的、有序和规范的,但从总体上看,由于互联网上的信息没有统一的控制,信息的质量参差不齐,造成网上信息分散、无序和不规范;网络上的分布信息的异构性使得用户难以实现统一利用;用户所需要的除了信息之外,更注重的是专门领域的知识及解决方案。因而,人们在网络中需要一种统一的、高效的访问和利用信息的工具,以及高质量信息的获取途径,数字图书馆正好适应了人们的这种需求[16]

数字图书馆(Digital Library)是一种馆藏以数字化格式存储可以利用电脑访问的图书馆,而传统图书馆的馆藏则以印刷、微缩胶片或其他媒体等相对格式为馆藏主体。数字化的内容可以被存储在本地端或通过电脑网络由远程访问。数字图书馆可说是一种信息检索系统[17]

数字图书馆资源的内容和形式丰富多样,有的资源是从外部所购,有的是内部建设;有些资源可供任何用户自由访问,而有些仅供特定用户使用;有的只有电子版,有的则同时有印刷版本。概括而言,数字图书馆的资源类型主要有:①全文资源,包括电子期刊、电子图书、电子报纸、开放式著作检索、发表及存档数据库、电子博硕士论文、电子档案等;②二次文献和书目信息,包括联机检索目录、文摘索引数据等;③多媒体资源,包括独立静态图像(照片、图片等)、动态图像(电影、录像等)、录音资料、动画等[18]

随着计算机和网络技术的研究和发展,数字图书馆正在从基于信息的处理和简单的人机界面逐步向基于知识的处理和广泛的机器之间的理解发展,从而使人们能够利用计算机和网络更大范围地拓展智力活动的能力,在所有需要交流、传播、存储和利用知识的领域,包括电子商务、教育、远程医疗等,发挥极其重要的作用。

4.5.3.3 学科信息门户

搜索引擎作为目前网络上最流行的信息获取工具,其为人们带来了很大的便利。但对于查找某学科(专题)的学术信息,还是显得力不从心。虽然Google现在推出了学术搜索Google Scholar,但在系统性和全面性上仍还需要进一步改进。在这种背景下,图书情报界开始将图书馆传统信息采集、标引和组织优势扩展到Web空间,开发出“学科信息门户”(Subject Based Information Gateways,SBIGs),试图提高网上资源的序化程度,弥补搜索引擎获取信息的不足。

简单地说,学科信息门户是用户访问某学科资源与服务的一个单一入口或通道。它是一种网络服务,用以完成本学科网络资源内容的高度组织集成和网络应用程序的聚集,并将这些资源与应用集成在一个可定制个性化的界面中来满足每个最终用户的需要。从用户角度来看,它是某学科用户访问该学科网络资源和服务的起始站点或入口。

学科信息门户的核心特征有:①信息和应用的集成整合,信息内容经过深层次组织加工,形成高质量的信息内容,这些信息与各种信息服务有机集成在一个统一的界面中。②跨系统一站式检索,用户在一个检索界面,将搜索请求一次性输入,就可实现对多种资源和数据库信息的查询,它将各个系统的界面浓缩结果汇集起来,以统一的界面展示给用户,使用户的搜索方便高效,而普通网站通常并未提供这种跨系统检索功能,用户不得不分别进入各个本地的或远程的检索系统来进行检索。③简单统一界面,通过共同的表达和一致的用户界面,使界户更易于使用,由于界面统一并遵循用户习惯,用户能够方便地发现和搜索到所需信息。④可定制,用户根据不同的角色预设了不同界面内容,可基于用户所属的角色来提供给用户相应的内容[19]

在国外,比较著名的学科信息门户有英国的社会科学信息门户(The Social Science Information Gateway,SOSIG)、美国的图书馆员因特网索引(Librarian's Index to the Internet,LII)等。SOSIG是由英国联合信息系统委员会(JSIC)资助,英国“经济与社会研究协会”(ESRC)与英国电子图书馆计划和欧洲委员会合作的,是英国“资源发现网”(Resource Discovery Network,RDN)的组成部分,旨在为科学研究者、师生免费提供社会科学领域的经过选择的高质量的网络信息资源。该门户于2006年7月更名为Intute(http://www.intute.ac.uk),由曼彻斯特大学牵头,以曼彻斯特大学、伯明翰大学、布里斯托大学、赫瑞瓦特大学、曼彻斯特城市大学、诺丁汉大学、牛津大学7所大学为核心,众多合伙人和提供方共同协作的协会。目前Intute学科信息门户中的资源范围已由原先的社会科学扩展覆盖了包括农业、建筑设计、工程、地理环境、医疗、数学与计算机、物理等多类学科,按主题分类链接超过8万个专业网站资源,提供10万多个教育和研究方面的网络链接服务,逐渐发展成为一个综合型的多学科信息门户。

LII是美国加州图书馆的学科信息门户,内容包括艺术人文、商业金融、政治法律、教育、新闻媒体、社会学专题等14个大类,主要服务于公共图书馆用户、图书馆员和图书情报领域的研究者。2010年1月,LII与美国密歇根大学开发的网上公共图书馆IPL(Inter Public Library)合并成为ipl2(http://www.ipl.org),旨在为用户提供便利可信任的网络信息资源及相关教学服务。

在我国,中国科学院国家科学数字图书馆(The Chinese Science Digital Library,CSDL)推出了学科信息门户系列,包括图书情报(http:// www.tsg.net.cn/)、物理数学学科(http://phymath.csdl.ac.cn/)、化学学科(http://chemport.ipe.ac.cn/)、生命科学(http://biomed.csdl.ac.cn/)、资源环境(http://www.resip.ac.cn/)五个特色学科信息门户。武汉大学信息资源研究中心创建开通了中国社会科学信息门户(http://www.cssig.org),这是一个专门为广大科研人员、高校师生和领域爱好者提供有专业网络资源的最大的华语社会科学信息门户网站和知识社区,其最大的特色是提供了大量国外社会科学领域内最新的研究成果和学术新闻,而且都翻译成了中文的内容介绍。目前该门户已经搜集了8 000条记录,该数字还在快速增长中。

4.5.3.4 RSS信息获取

RSS技术是基于XML(可扩展标记语言)技术的互联网内容发布和集成技术,其英文全称是Rich Site Summary(丰富站点摘要)或者是Really Simple Syndication(真正简易聚合)。第2章“信息交流”中,我们在网络信息交流部分将RSS作为Web2.0环境下的信息交流工具进行过介绍。这里我们将重点介绍如何使用RSS来获取网络信息。

RSS技术自出现以来就受到重视,许多网站都纷纷采用RSS来发布和推送自己的信息内容,其中有许多是新闻网站、博客网站。此外,RSS技术在企业知识管理领域也有相当大的发展空间,员工与客户通过阅读器订阅自己关心的企业内容,与传统电子邮件相比,信息源订阅使他们所接收的内容有更多的选择权。在电子商务领域,人们还可以利用RSS信息定制,随时掌握所关心的商品的各种信息,为电子商务网站提供了高效的信息发布渠道,加强了客户与电子商务公司的联系。

传统的Web浏览是通过浏览器访问网站,从网站中选择感兴趣的内容进入相应的二级页面找到信息源,有时候在网站首页面和目标页面也就是信息源之间可能存在多级页面,在打开目标页面之前必须被迫浏览几个自己不需要的页面,而且这些导航页面总是存在大量广告信息。另外,在打开目标页面之前,我们也很难判断目标页面的时效,经常会在打开目标页面之后发现这些信息是过期的。通过RSS获取信息与传统的Web浏览方式有很大的不同,实现RSS的浏览,除了需要RSS Feed外,还需要RSS阅读器(RSS Reader)。

(1)RSS Feed

信息提供者首先提供RSS Feed,并为RSS Feed分配一个固定的URL。一个RSS Feed其实就是一个XML文档,是对多个信息源(即目标页面)描述的元数据文件。当信息源增加或减少时,信息提供者则相应修改RSS Feed文件,而RSS Feed的URL保持不变。浏览者有选择地订阅自己需要的RSS Feed,通过RSS阅读器或者RSS聚合门户接收RSS Feed信息并以一种容易理解的格式解释出来。由于RSS Feed中著录的只是诸如标题、作者、分布时间、摘要等元数据信息,浏览者根据这些元数据信息,确定自己具体需要的内容,并通过RSS Feed提供的链接获取目标页面原文。对于一个RSS Feed的订阅一般是一次性的,也就是说用户在订阅了RSS Feed之后,浏览者通过RSS阅读器设置与RSS Feed的同步时间,RSS阅读器每隔一段时间自动获取RSS Feed内容,并把最新的信息突出显示出来,这样对浏览者来说,就好像信息自动推送过来一样,所以RSS技术也是一种“推”技术。现在许多新闻信息服务类网站及Blog上,都标有“RSS”或者“XML”的按钮,有的网站使用一个图标,有的同时使用两个图标,这就是典型的提供RSS订阅的标志。

(2)RSS阅读器

RSS阅读器一般分为两种,一种是桌面RSS阅读器,另一种是在线RSS阅读器。

桌面RSS阅读器是一种软件或者说是一个程序,用户安装后可以通过网络自由读取RSS Feed文档,目前大多数桌面RSS阅读器支持多个版本的RSS Feed文档,甚至Atom文档。

和桌面RSS阅读器不同,在线RSS阅读器不需要在客户端安装软件,用户直接登录提供在线RSS阅读服务的网站,就可以订阅RSS频道、阅读信息等,类似于电子邮件的方式,不过完成的是RSS阅读器的功能,有时候也称为RSS聚合门户。在线RSS阅读器的优势在于,不需要下载和安装任何软件、程序和插件,可以随时登录并随意添加订阅和浏览最新内容。

在通过RSS阅读器获取信息的方式中,RSS Feed和相关信息是保存在本地的,也就是说用户如果使用另外一台计算机必须重新订阅和设置,于是出现了RSS聚合门户,克服了RSS阅读器的这种不足。和RSS阅读器把RSS Feed和相关设置信息放在本地不同,RSS聚合门户把这些信息放在远程数据库中,用户根据自己的账号进入RSS聚合门户,提取自己的RSS Feed信息,这样用户不用安装RSS阅读器,就可以在任何一台能上网的计算机上完成信息的浏览。

网上有许多RSS阅读器可供使用者下载,Google Reader是Google提供的在线RSS阅读工具,目前已成为最大的在线阅读器之一。Google Reader是一个使用了大量JavaScript构建的feed聚合器,它能非常及时地抓取最新的feed数据。Google的Ajax前台调用到的数据采用了Atom格式,这种数据格式降低了Google Reader的开发难度,同时也使得第三方应用很容易对其进行扩展。Google Reader可以使用SSL访问网络,也支持用https来访问[20]

本章内容提要

信息的获取和搜集是信息管理流程的首要环节。第4章首先介绍了信息源的概念、分类及其特征、信息评价和选择的指标及方法,而后分析了信息获取的效率指标;在“网络应用”部分着重讨论了网络信息评价与获取问题,包括网络信息源及其特点、网页信息资源和网站信息资源的评价、网络信息的获取途径(搜索引擎、数字图书馆、学科信息门户、RSS信息获取)等。

本章重点

1.信息源的分类及其各自的特征,并能根据特定的信息检索任务,对各类可利用的信息源的优缺点进行分析,为信息获取策略优化提供依据;

2.信息评价的一般指标主要有哪些,结合这些指标怎样评价和选择有价值的信息;

3.信息获取的效率指标主要有哪些,分析采全率和采准率及其两者之间的关系;

4.网络信息源及其特点,了解网络信息评价的主要指标;

5.掌握网络信息的主要获取方法。

本章其他参考文献

[1]艾华.浅谈博客作为竞争情报信息源的可靠性[J].图书情报工作,2009(8).

[2]曹孟谊,吴建明,孟秀玲.国外信息质量评估指标体系研究[J].军事运筹与系统工程,2004(4).

[3]戴维民.“网络为王”时代的媒体公信力认定——网络媒体评价指标与方法[J].图书情报工作,2004(1).

[4]洪丽.零次信息价值及其价值理论探索[J].中国图书馆学报,2006(1).

[5]梁平.网络参考信息源评价问题研究[J].情报科学,2005(8).

[6]马小闳,龚国伟.信息质量评估研究[J].情报杂志,2006(5).

[7]田菁.网络信息与网络信息的评价标准[J].图书馆工作与研究,2001(3).

[8]颜丽君.Blog信息源的信息组织与利用[J].图书情报工作,2004(11).

[9]颜丽君,曹树金.个性因素对用户信息源选择偏好的影响——基于对高校学生的实证研究[J].图书情报知识,2006(5).

[10]张冬梅,曾忠禄.竞争情报中的信息评价[J].现代情报,2006(7).

[11]张芳.零次信息及其交流传递[J].科技情报开发与经济,2006(16).

[12]赵宇翔,朱庆华.Web2.0环境下用户生成视频内容质量测评框架研究[J].图书馆杂志,2010(4).

【注释】

[1]徐金铸.信息源及其分类研究[J].现代情报,2001(6):39-40.

[2]K.B.塔拉卡诺夫主编.情报学[M].何士彬,译.北京:书目文献出版社,1993:39-40.

[3]南京航空航天大学图书馆.网络信息采集与应用[M].北京:清华大学出版社,2005.

[4]陆宝益.网络信息资源的评价[J].情报学报,2002(1):71-76.

[5]陆宝益.网络信息资源的评价[J].情报学报,2002(1):71-76.

[6]ALexa的中文官方网站是:http://cn.alexa.com/.

[7]http://www.alexa.com[EB/OL].

[8]http://zh.wikipedia.org/zh-cn/Alexa_Internet[EB/OL].

[9]http://zhidao.baidu.com/question/38958105[EB/OL].

[10]http://blog.csdn.net/tjai110/archive/2007/10/24/1841759.aspx[EB/OL].

[11]Nielsen NetView.Top 10 GlobalWeb Parent Companies,Home&Work[EB/OL].http://en-us.nielsen.com/rankings/insights/rankings/internet.

[12]Nielsen NetView.Top 10 U.S.Web Parent Companies,Home&Work[EB/OL].http://en-us.nielsen.com/rankings/insights/rankings/internet.

[13]中文网站百强榜[EB/OL].http://top.chinalabs.com/index.html.

[14]关于人气综合指数[EB/OL].http://top.chinalabs.com/ep/index.asp.

[15]关于人气结构指数[EB/OL].http://top.chinalabs.com/ep/index.asp.

[16]黄如花.网络信息组织:模式与评价[M].北京:北京图书馆出版社,2003: 205.

[17]数字图书馆[EB/OL].http://zh.wikipedia.org/zh-sg/%E6%95%B0%E5% AD%97%E5%9B%BE%E4%B9%A6%E9%A6%86.

[18]李洪.国外数字图书馆资源的特点及发展状况[J].图书馆工作与研究,2005(6):29-31.

[19]孔敬,李广建.学科信息门户:概念、结构与关键技术[J].中国图书馆学报,2005(5):50-53,90.

[20]颜端武,王曰芬.信息获取与用户服务[M].北京:科学出版社,2010:143-151.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈