首页 理论教育 从文献计量学到网络计量学

从文献计量学到网络计量学

时间:2022-03-04 理论教育 版权反馈
【摘要】:最后,对文献计量学和网络计量学的未来发展趋势也进行了探讨。文献计量学的第二个重大发展是在急速扩大范围地研究相关文献的网上出版,从论文到电子讨论记录,产生了一大类新型针对它们获取和使用的计量学。本综述主要关注两点:总述文献计量学和网络计量学领域。文献计量学包括文献属性和文献相关过程的计量。然而,在实践中,文献计量学主要应用于科学相关文献,所以与科学计量学有明显的交叉。

从文献计量学到网络计量学(1)

邱均平 杨瑞仙 编译

(武汉大学信息管理学院)

【摘 要】2007年,英国伍尔弗汉普顿大学的网络计量学专家迈克·塞沃尔教授在国际著名图书情报杂志《信息科学杂志》上发表题为“从文献计量学到网络计量学”一文,讲述了信息科学在这50年间发生的巨大变化。文章回顾文献计量学从1958年到现在的发展历程,对比早期的文献计量学和它的当前研究内容,综述一大批最新的研究方向和进展,如专利分析,国家科研评价实践,新型可视化技术,创新应用,新在线引文索引以及数字图书馆创建相关的发展过程等;还对网络计量学,进行了详细的评述。最后,对文献计量学和网络计量学的未来发展趋势也进行了探讨。

【关键词】文献计量学 网络计量学 学术出版

Bibliometrics to Webometrics

Translation of Qiu Junping Yang Ruixian

(School of Information Management,Wuhan University)

【Abstract】Mike Thelwall,from the School of Computing andIT,University of Wolverhampton,published a paper on the Journal of Information Science in the year 2007.This paper is titled“Bibliometrics to Webometrics”,and the great changes in last50 yearswere stated.It reviews the development of the bibliometrics from 1958 until now; compares the research before with that of now;summarizes lots of new research direction and development,such as patent analysis,national research evaluation exercises,new visualization techniques,new application,new online citation indexed,and developments related to the creation of digital libraries.Moreover,webometrics is also commented.Finally,the trend of future development of bibliometrics and webometrics is discussed.

【Keywords】bibliometrics webometrics scholarly publishing

1 前言

在过去的五十年里,学术出版领域发生了两大主要技术的变革,且在研究的计量分析方法上发生了两次巨大的改变。出版上的两大变化一是印刷过程(论文的提交,查阅和出版)的计算机化使得费用急剧降低,更多的期刊和书籍可以被出版;二是整个出版周期向互联网转变,从而允许更快,可能还更廉价的全程通信。从历史上来看,定量分析学术出版(即文献计量学)发展中的第一个重大发展是科学信息机构创建引文数据库(ISI,现为汤姆森科技(2)),在1962年开始运作,同时“二战后”社会学通过这个引文数据库对其科学成果的影响力进行了评价。从那以后,大学里计算机可用资源一直连续上升,使得很多计量研究成为可能。文献计量学的第二个重大发展是在急速扩大范围地研究相关文献的网上出版,从论文到电子讨论记录,产生了一大类新型针对它们获取和使用的计量学。

本文重点讲述科学的计量。两大重要的变革分别发生在我们要考虑的时期的开始后和结束前,方便了这期专题的讨论,但在两次变革间文献计量学已经发展成为一门公认的科学领域:在大学作为信息科学的一部分课程进行教授,有着一系列实质性的方法,一些理论知识,以及一组国内外的科学评价专家。本综述主要关注两点:总述文献计量学和网络计量学领域(一个源自文献计量学的新的研究领域)。第一部分探讨在1958—2008年前半段诞生的文献计量学,第二部分选取了更多近期的发展,第三部分主要论述网络计量学。

2 文献计量学

文献计量学包括文献属性和文献相关过程的计量。文献计量学的方法包括字词频数统计、引文分析、共词分析和简单的文献累积计量,例如单个作者、研究组或者是国家的总发行物数量。然而,在实践中,文献计量学主要应用于科学相关文献,所以与科学计量学有明显的交叉。

尽管熟知的文献计量学方法已经应用了至少一个世纪,文献计量学作为一个科学领域是由于尤金·加菲尔德创建的科学信息机构(ISI)的科学引文索引发展,是他一直努力支持科技文献搜索的合理结果。科学引文索引(SCI)是作者标记的参考文献数据库,在早期的文献中和顶级科技期刊中发表的论文,最开始都是集中在科学总论和基因学。科学家阅读了相关文献,知道哪些文献引自哪篇并从中获益,因为这些文献可能包含了相似的主题,可以据之更新或者修正原始文献,这个基本道理到今天依然适用。科学引文索引的重要性与Bradford的传播原则是一致的:尽管一个科学家可以通过阅读所有可见的相关期刊,对某一研究专业保持最新动态的了解,但是少部分相关文献依然通过一些非紧密相关的期刊进行传播。因此,引文检索帮助研究人员避免了在非核心期刊中相关文献遗漏的情况。

尽管引文检索几乎是科学引文索引的一个附属品,后来的社会科学引文索引(SSCI)和人文艺术类引文索引(A&HCI)还是轻易地造就了一类新的统计学:不只对给出论文的引文数量进行统计,而且通过科学引文索引其他部分的使用,对总的出版物和引文数量进行统计。总的统计数据包括一种期刊中所有论文的引文总数或者是单个作者、研究组或者国家的所有论文的引文的总数。其中一些统计量通过相关理论支持,进一步发展成为指标并有了合理的被人们广泛接受的标准阐释。可能最有名的就是期刊影响因子。

自从科学引文索引发行以来,出现了两种文献计量学的应用类型:评价类和关联类。评价类文献计量学致力于评价学术成果的影响力,通常是比较两个或多个个人或组织的相关的科学成果。这些评价结果有时被用来制定研究政策和帮助确定研究基金的实施方向。相对的,关联计量学致力于揭示研究中的一些关联,比如研究领域的认知结构,新的科研前沿领域,或国内外作者合著方式等。

2.1 评价文献计量学

大部分的评价文献计量学技术采用引文数据作为其原始数据。理论基础源于RobertMerton的社会科学,他假设引用量是学者了解重要前人成果的途径,在这个基础上,引文量的计算就能被用来作为评价科学价值的一个指标,因为越是重要的成果就会被引用得越多。实际上,“impact”这个词现在被认为是适合以引文量作为指标来计量和表示的。后来的研究表明Merton的观点是把现实情况的一种简单化:引用文献有很多不同的原因,从很多可用的文献里选择哪些文献也有很多的影响因素。从另一个角度来说,de Solla Price发现对高被引论文,累积优势在过程中可能有影响,开始被高引的论文后来再被引用可能不是因为它们的内在价值,而是因为它们被引用过而已。这与Menton在科学上的“马太效应”不谋而合,有声望的学者会获得与研究成果不合比例的荣誉。尽管存在上述复杂的情况,基于引文量的统计还是被广泛采用。

第一个应用是期刊影响因子,在1960年早期被引入,是科技信息机构(ISI)中建立索引期刊的文献在出版后的第X年到第X-1和第X-2年两年的被引总数除以期刊在第X-1和第X-2引文总数。在merton的基础上,有着较高期刊影响因子的期刊趋向于出版较高影响力的研究成果,因此也更趋向获得好评。然而,似乎大家一致认同,即使是在比较离散的学科中,基于期刊影响因子评价的期刊排名还是有问题的。此外,基于期刊影响因子的价值性,期刊编辑似乎都企图推荐作者多引用本期刊中的其他文章,以提高期刊的影响因子。

第二个广泛的应用是关于任职和升职的决策上的考虑,学术成果发表的期刊影响因子或者是其出版物的被引用数量。然而,这并不为很多文献计量学家所推荐,因为个人作者水平的引文量计算是不可靠的,还有那些做决策的人可能忽略了不同学科间的差异性。

第三个应用是有文献计量学专家通过出版物的引文量来比较学术院系论文的学术水平。即使是合理的基于整个学术院系出版物的总计,并且很谨慎地构建文献计量学指标,也仍然需要结合一些证据资源(如科研经费,来源的可信度,同行评议,陈述)来对重要决策给出依据,比如那些经费相关的决策。

2.2 关联文献计量学

虽然早期还是有很多从ISI数据中检测相关联系的文献计量学方法的探索尝试,但是可能由于早期计算机能源的匮乏,特别是可视化关联分析方法的发展受到阻碍。尽管如此,通过简单的途径,早期关联分析对科学的结构产生了一些有趣的见解,比如一些主要文献的引文数的网络波动图。这个方法显然是基因学家Gorfdon A llen教授发明的,他把引文量图表交给热情的加菲尔德。期刊引文图表是早期的另一个发明:它可以揭示同一学科领域内期刊间的联系,发现那些交叉学科的期刊和分辨核心和非核心期刊。

有时归功于加菲尔德,共引可以被作为是测度相似性的一种重要的关联测度法。测度的基础是在参考文献一栏中经常同时出现的一些文献在某一方面可能很相似。这意味着如果文献的收集依据它们共引数的计算,那么就应该产生一种反应认知科学联系的方法。作者共引分析(ACA)是一种相似性测度技术,在于从作者的文献共同被引的频数来测度两位作者间的相似性。ACA从一个足够高的累计角度成为描绘学科结构的实用工具。

3 文献计量学现状

随着网络和网络相关技术的发展,文献计量学主流与其说经历了革命性的巨变,不如说在正常的演变。虽然基于核心引文量的影响测度仍在应用,但如今已被一类其他的技术所替代。此外,因为有一体系理论和案例分析可供利用,所以实践文献计量学合理地断定:可以找到很好的方法从引文量中创建更好的指标,解决任何常见的任务,同时知道怎样去解释结果。特别是,最近关于使用引文量来测度影响力的争论在热烈进行中,同时引用动机理论的发展最近也被广泛的综合讨论。

除了核心引文量分析方法,文献计量学中最大的改变来源于新的关于学术交流的信息源的可用性,比如专利、网页、数字图书馆的使用统计。当然,文献计量学从来就没有对学术给予特别的关注,同时还使用其他数据作为质量指标,例如经费、质量指标,如同行评议意见。

在文献计量学的最近发展中,尤其是在引文分析中,可能有三大主要趋势。分别是通过高级的计量学方法和谨慎的数据清理,提高测量结果的质量,对新的任务发掘不同的计量方法,将文献计量学应用于越来越多的更广泛的问题中,特别是描述文献关联性(可以从后面章节知识领域的可视化中为后者找到例子)。

3.1 h-指数和现在的文献计量学指标

可能最重要最新的评价计量方法要数h-指数了,对一个科学家来说,h值的最大化是指他或她至少有h份出版物被引用了至少h次。较高的h值显示了一位科学家发行了很可观的被高度引用的出版物。这种方法之所以产生是因为易于计量并且理解直观。已有很多关于h指数的研究和评价,提出经过修正意见或者将其应用于一系列学者的评价。比如英国的h指数排名表和美国的图书情报科学教授排名表都引起了该领域研究者的极大兴趣。

除了h指数,最重要的评价文献计量学指标似乎也在逐步地演变。例如,不同领域有基于其不同的广泛引文标准形式,因此在不同学科领域间引文量的比较是不合适的。所以,当使用引文量来评价学术院系时,最好的方法是采用该学科标准化后的引文指标。即使在同一学科的一系列院系的比较,采用原始引文量累计值或者是每位学者的平均引文量都不能准确反映他们的引文影响力,因为每个院系专深领域可能有所不同,因此也有着不同的平均引文率。所以,除非指标被标准化,例如将每个院系的引文量除以那个研究领域的平均值,不然在学术研究领域有着较高平均引文累计数的院系取得的优势结果是不公平的。因此,评价引文分析的目标已经从研究影响力评价向相对于一个领域的研究影响力的评价方向转变。

3.2 国家科研评价实践

系统研究评价实践对于文献计量学来说似乎是重要但又仍然很有争议的应用领域。如今已有四个国家拥有周期性的国家科研评价实践报告用来决定他们科研经费的很大一部分方向。英国的研究评价实践(RAE,见http://www.rae.ac.uk)是首次实施的,分别在1986年、1989年、1992年、1996年以及2001年进行,2008年也将实施。这主要是基于同行评议,挑选每个大学授予级别的相关专家组成一组专科专家。除了同行评议,通常还基于四大顶级出版物的每个研究者(意见),这个小组将其他的因素也列入考虑,比如经费、毕业完成情况,以及论述(narrative)。尽管文献计量学还没有担任正式的角色,但其可以包括提交时的论述部分,被专家作为决策过程的一部分。有趣的事实证据表明很多学科也发展了不正式的出版物索引,其中列举的目标杂志由期刊影响因子决定。2008年实施的研究评估实践将结合文献计量学方法一起实施,然而,后来的研究评估实践将更多地融入文献计量学因素,但基于学术出版物本身已经经过同行评议而有争议。向文献计量学方向转变的理由是文献计量学指标,比如引文量和期刊影响因子更加明确,相比与同行评议也较便宜。然而,从本身的角度来说文献计量学还是不够合适的,所以系统研究评价实践很可能还得一直纳入其他的因素,很可能要纳入同行评议作为最后的评价标准。

新西兰的基于研究基金的绩效始于2003年,在2006年又部分开始运作,预计在2012年将又开始运作。除了一直对学术界的个人进行评价而不是针对整体的提交过程外,其他与国家科研评价实践极为相似。2008年英国的国家科研评价实践正在向个人评价转变而不是以组为单位,但是在新西兰体系中每位学者都有一个个人证据组合文件夹,而不是所有出版物的简单组合,尽管每位学者的组合文件夹中核心组成因素是大概4篇提名的研究成果。

在澳大利亚,机构补贴计划(IGS)完全替代了早期的研究量化评价(Research Quantum),是一种有效的国家评价实践,澳大利亚的评价从来没有包括一向重要的同行评议因素,但其一直主要基于外部基金用于研究。从2002年开始,该经费主要基于“对研究生的吸引程度(经费的30%),对其他研究经费的吸引程度(60%)和出版的研究成果的质量和数量(10%)”。

世界科学系统最大的国家——美国,并没有国家科研评价实践。相反的,美国的研究经费是基于一个个项目来竞争分配的,事前的评价是次重要的,由相关的基金机构执行。Netherlands的研究评价过程是一种不同的尝试,包括不同基金机构和利益相关者的组合。还有不同的是先前对研究发展基金会的评价系统(FRD),如今已经被在南非的国家研究基金会(NRF)所代替,在授予基金补贴之前,结合了新西兰之前第二阶段的个人研究者的评价过程。目前的NRF系统很相似,前期通过同行评议评价个人研究者,通过评定的研究者才能够申请基金补助。最后,撇开上述陈述不说,大多数国家采用的是认为的自主评价(ad-hoc)而不是系统实践,意大利就是这样。

那么研究评价系统有多么有效和实用呢?很明显这是个很有争议的问题,并且没有一个简单的答案。然而在澳大利亚,有证据对一个简单的策略(评价方法)提出了异议:出版物的简单累计而不评价其质量的消极影响导致了质量较低的期刊论文数量的增多。英国的RAE基于英国的绩效和世界相关的文献计量学的证据,庆幸其取得的成功,但是它的评价是否为大多数人所相信还有待考证。

3.3 新文献计量数据库:Google Scholar和Scopus

1992年,科学信息机构(ISI)被加菲尔德和其他合伙人卖给一个公司,后来成为Thomson Scientific公司,延续了引文索引。近些年来,ISI索引由于大规模的网上学术论文数据库的出现而面临重大的挑战,如Google Scholar和Scopus(Elsevier)也包含引文信息。此外,还有其他较小规模的专科数字图书馆和包含引文索引的档案,比如计算机科学的CiteSeer和首创CiteBase对网上免费学术出版物建立引文索引,包括(arXiv)网站(物理、数学、计算机科学和生物计量学)

有一篇论文通过在完成一间图书信息科学学院的师资评定等级任务中,以评价基于不同数据来源引文分析规模和程度为明确目标,比较了Web of science(使用ISI数据),Google Scholar和Scopus。结果表明,大规模的引文分析采用Google Scholar是很困难的,其他两个总的来说结果相似。然而,对某些领域的覆盖面的缺陷在于一些师资人员的严重不足,因为其使用的数据库的选择。所以,将两者结合起来互促互成可以得到最公正的结果。此外,Web of science、Scopus与Google Scholar相比,会议覆盖面低表明了它们都不能给注重在会议上发文的学者以公正的结果,比如计算机科学、计算机语言学。另一调查比较了不同数据库社会科学研究覆盖面,发现Scopus提供了较好的覆盖范围。其他一些对更多学科覆盖面的研究也表明Google Scholar的覆盖是不稳定的,对一些学科来说覆盖面很低或者特别的不可靠。

3.4 知识领域可视化

对成熟可视化的大量使用可能是关联文献计量学最重大的发展,并导致了一门新领域的创建:在信息可视化研究领域中的知识领域可视化。这包括了重要的计算资源,是更广泛的“电子研究”利用计算机达到社会科学研究目标趋势的一部分。除了Chen对个人研究领域的三维丰富信息可视化研究外,其他人通过ISI数据库中的引文量实施了描绘科学大型领域的雄伟计划。

早期的关联文献计量学的研究可能只是手工描绘作者,期刊或者论文的引文量图表,后来的学者开发了软件来自动完成这一过程。例如,Olle Persson的Bibexcel可以导入ISI中的引文数据,然后得出一系列二维表格,比如一个由研究者们的对一位既定作者的最强的引用关系组成自我网络(Ego Network)(这个术语是从社会网络分析中借用的)。与之相似的,Loet Leydesdorff有一系列的软件可以将ISI的数据转换成一种可以生成图表的格式,特别是可以用来说明各个期刊间引用关系。

有很多系列可视化软件由于计算机学家的意义重大的导入可以免费使用,并且可以很容易的处理ISI数据,得出三维可视图。Katy Borner的Info Viz Cyberinfrastructure是一套通用目的的开放资源软件,采用了很多算法进行处理和表示数据。一个很特别的优势是其处理大量数据的能力。例如,Boyack通过文献计量学结合超过一百万在科学引文索引中的论文,得出了科学与技术结果的图例。Chen Chaomei的Citepace软件特别注重文献计量学研究,能够产生引文网络的漂亮的三维可视图。一些Chen的网络图中有趣的特点是它不仅仅包括最基本的结构而且还包括让所有研究者通过颜色和其他特性的使用,来表达其他层面的额外信息的功能。例如,表示一篇论文在一个论文组成的网络中的一个圆圈,可以通过图上不同的颜色层表示论文每年的引用数量。

3.5 专利

专利是通常由政府专利局颁发的,有一定时限的对一项发明的专有的一系列权利。专利这个术语也可以用做官方注册发明的描述。这些文件与学术论文在某些方面很相似,比如也包括了一系列的参考文献。基于有时学术研究者可能会直接投身于有用技术开发中的共识,专利的价值被作为科学价值的指标。

为了奖励那些有着潜在商业价值的创新研究者被授予专利权,从计算研究者的专利权数计算的意义上来说,专利指标可以是很直接的。但通过专利的参考资料来识别被引用的学术成果,然后被认定为有应用价值,这样专利指标就不直接了。专利分析同样被用来评价一个国家技术发展的表现以及识别科学和技术之间的知识转变流向。例如,有关Netherland的专利研究实例表明结果并没有与现今的大学和工业的关系的理论模型相吻合,因此还有待重新考证。

3.6 数字图书馆的使用数据

从长远来看,文献计量学面临最重大的挑战可能是第一次由数字图书馆产生的大规模的学术论文使用情况的数据证明。在一些情况下编辑已经收到除出版商那里获得的影响因子之外的其他使用统计数据,似乎很可能这两类数据又可以给出互补的有用信息。在一些情况中对日志文件进行研究可以将使用情况和用户人口统计学结合起来,得出用户和信息检索方式的一些其他见解。

有两个重要的问题是关于开放存取出版对文献可视化的影响和出版商的利益的影响。在一篇研究ArXiv中的数学论文阐明了上述两个问题,并指出开放存取的论文容易被经常更多地引用,但是原因是更多被引用的文章更趋向于存储在ArXiv中,而不是因为存储在那里而必然吸引了更多的引用。此外,还有一些证据表明后来发表的开放存取论文从出版商网站的下载次数相对减少(减少了23%)。

数字图书馆使用数据能够与引文量计量相关联。例如,早期的读者数据对于一篇文献的未来预计引文量计量有适量的帮助。然而,也有很多文献的引文量和使用统计数据相差甚远。这提高了使用数据可能被用做一种新的影响力依据的可能性。例如,在一些学科中将科研用于本科生教学中可以被认为很有用,采用统计学数据进行评价比引文量更有价值。也许在将来我们同时有着“经典引文量”和“经典使用性”指标。物理学或者信息科学中,出版商通常将网上下载最多的文献列表分发到期刊编辑栏中,但是缺乏使用性统计数据的标准化阻止了通用列表的建立。而且,目前可用的使用性统计数据并不是没有问题的:例如出版商已经注意到一些个人的文献很容易获得高的使用概率是因为被一个大班的老师推荐作为必读文章。

4 网络计量学

网络计量是一门借鉴信息计量学相关方法,定量地分析各种网络信息现象的学科,它所研究的问题通常与文献计量学属于同一范畴。当网络成为海量信息,尤其是学术信息的存储库时,网络计量学便应运而生。与传统计量学不同的是,网络计量学的各项指标数据可以通过商业搜索引擎获得,这也为人们的研究活动提供了便利。事实上,几家大型搜索引擎提供将指标数据自动传送给研究者的电脑程序的服务,这使得大规模研究成为可能。人们最熟悉的一项网络计量学成果就是基于校园网站分析和在线影响力分析(Online Impact)的世界大学排名。

网络计量学的研究方法包括链接分析、网络引文分析(Web Citation Analysis)、搜索引擎评价(Search Engine Evaluation)和纯描述性网络研究(Purely Descriptive Studies of the Web)。除了最近兴起的有关Web 2.0的分析,下文将对上述方法的应用进行回顾。此外,本文对有关网站建设(如网站的易用性、网站内容等)的计量学方法不予介绍。

4.1 链接分析

链接分析是研究网页间超链接关系的定量方法。Ingwersen借鉴期刊影响因子(Journal Impact Factor,JIF)的原理提出网络影响因子(Web Impact Factor,WIF)以及人们接受了超链接相当于计量学中的引文关系这一假设后,文献计量学引入了链接。WIF用来计算某一网络空间(如网站、网络社区等)内部网页的平均外来链接数。早期的链接分析是基于这样的假设:指向某个学术网站的链接数可能与该网站所有者(大学、某个部门、学术组织或个体研究者)的学术生力相对应。因为总体上,高产的研究员越多,则网站的内容越多,尽管这些网页的内容质量并不能提高网页的平均链接数。然而除非进行大量的研究,否则发现两者间的变化模式并不容易,因为它们之间不存在直接的因果关系。例如,有些作者的研究成果具有较高的链接数,而其他作者的同水平的脱机成果在网上的关注度却偏小。

后来的超链接分析引入了新的计量学方法,如改良的计数方法(如可选择的文件模型),其应用范围也有所扩大。这时的链接分析研究主要集中在方法改进和案例分析上。由于链接产生的原因多种多样,并且与引文关系不同的是链接关系在任何一门学科中都不处于中心地位,导致超链接分析很少用于评价研究。但相对于引文分析和专利分析,链接分析能更好地描述学科领域内科研组织的发展和各组织之间的关系。这种方法对不同情景下的网络利用情况的研究,也很有价值,如研究不同学科机构的利用情况。

然而,所有链接分析方法都面临这样一个问题:网络总是处在不断变化和扩张的状态,因此网络计量的学科发现可能很快被淘汰。澳大利亚、新西兰和英国都曾对大学网站展开时间跨度研究,其成果有效期都证明了这一点。这些大学网站经过若干年的快速增长,直至2001年其规模才趋于稳定。然而通过各年份各网站间的链接数量的比较,研究人员发现网站规模上的稳定掩盖了链接上的变化,但也同时证明有代表性的定量研究结果可以有较长的有效期。

4.2 网络引文分析

相当数量的网络计量的研究重点并不是网站,而是利用网络期刊文章被引频数来研究网络学术出版物。它的基本原理在一定程度上为ISI数据的用途提供了新的视角,也为扩大网络研究的范围(包括非正式的学术交流、商业应用等)提供了可能。大量的研究证明,虽然网络引文的数量庞大,网络引文分析的结果与ISI引文数据产生的结果却在众多学科中表现出十分紧密的联系。然而,许多网络引文,例如引用本期刊的文章而不是外部文章,对研究都是无意义的。如果可以实现自被引和外部引用的自动区分,网络引文分析可能代替ISI引文指标。

4.3 搜索引擎

大量研究是利用商业搜索引擎进行网络计量学研究,其研究主题主要集中在两个方面,即搜索引擎的查全率和查准率。搜索引擎的算法和信息检索过程则不属于网络信息计量的研究范围。关注搜索引擎评价的研究人员有两类:一是利用搜索引擎收集数据的学者,另一类是要了解搜索结果含义的学者。

搜索引擎很早以前就成为用户通向网络的门户,因此它的覆盖面理所当然地成为人们关注的焦点。1999年,研究人员对当时主要的搜索引擎调查后发现,所有的被调查对象的覆盖率都不大于可索引网络的17.5%,这里的“可索引网络”是指在理想状况下搜索引擎可以找到的所有网页集合。理想状况是指搜索引擎不但可以找到某个网站内的所有网页,还可以跟踪网页上的链接,找到网站外的其他网页。此外,搜索引擎之间的重复结果也惊人的少。1999年以后,类似的数据就没有出现,这是因为:①模糊超文本传输协议技术和虚拟服务器技术的产生使劳伦斯和盖尔的取样方法(the samplingmethod of Lawrence and Giles)不再有效。②动态网页的出现使计算“网页总数”成为不可能的事情。③鉴于搜索引擎的查全率不可能达到100%,所以若非查全率有很大的变化,精确的查全率是没有意义的。但这项调查很好地证明利用元搜索引擎可以收集到更多的结果。然而,Google在搜索引擎领域已占有绝对份额,有人认为这是因为Google完成了搜索引擎一项最重要的工作,即将最相关的结果排放在首页,而不是分散在各页中。

搜索引擎不可能绝对客观,那么覆盖网页的数量会不会在某些重大原因作用下发生变化呢?这个问题之所以重要是因为在新时代网络经济中,作为网民和网上信息中介者的搜索引擎能够带来巨大的商业利益。事实上,越早运用网络的国家搜索引擎返回结果的查全率就越高。这是由搜索引擎收集网页方式产生的副作用,而并非由检索策略引起。

搜索引擎的查准问题涉及很多方面。Bar-Ilan和Peritz认为搜索引擎自身不会将相同的搜索结果返回给用户。他们对Google进行了跨年分析,在Google中检索语句“Information OR Informetrics”,结果发现返回的结果只是其数据库的一部分。虽然相互重复的网页被省略,但这样终究会造成结果的丢失。一项关于Microsoft Live Search的相关性分析发现信息丢失的一个原因可能是Microsoft Live Search的政策规定每个网站最多返回两个网页。

许多网络计量研究已经开始使用由搜索引擎在结果页面上提供的估计结果数(如,数据“50000”来自“约50000结果中的1~10个”)而不是使用符合匹配的URL列表。例如,Ingwersen在研究几组国家的超链接数时使用的就是这类估计数据。但这类数据往往不可靠,甚至有出入,例如,扩大检索式的范围反而得到更少的结果。在网络计量学产生初期,这类估计值非常不稳定,尽管后来情况有很大的改善,但还是有人建议采用技巧来减少这种出入。

最近,一项Live Search估计结果数的准确性的研究结果令人惊讶。它对结果较大(>8000)和较小(<300)的估计较稳定,而对结果在两个数字之间的估计却不稳定。这可能是由于较大的估计值是搜索引擎根据匹配出的结果总数制定的,而较小的估计值则是搜索引擎在去除匹配结果中的相同、相似网页以及同样的多余网页后得到的结果。中等大小估计值之所以不稳定是估计方法没有完全转换的结果。对于搜索结果数量偏大或偏小的网络计量研究来说,估算原理的不同是摆在它们面前的一道难题。

4.4 网络描述

基于网络的重要性,一些学者也展开了对网络的纯描述性分析。至今已经出现了基于各种调查方法的统计报告,包括:网页平均大小、平均元标记数、元标记种类以及技术的平均使用情况(如Java、JavaScript)。此外许多商业性网络情报公司也公布了诸如使用人数、网页数、服务器数等基础统计结果。然而,公布于众的描述性分析报告只有两类,链接结构分析和时间跨度研究。

关于网络链接已有两项重大发现,分别与网络整体结构和链接的发展规律有关。AlatVista的专家将抓取的网页复制,构建出网络链接结构的整体图景。他们发现了“蝴蝶结”模型(如图1所示)。位于模型中心的通过一次或多次链接就可以与彼此相连的网页集,被称为“强连接部分”(Strongly Connected Component,SCC),占全部网页的28%。它相当于整个网络的心脏,在其中定位相对容易,而且包含链接较好门户网站,如Yahoo!Dictionary、DmozOpen Source Directory等。此外,从“SCC”中的网页出发,经过一次或多次链接可以到达另外21%的网页,但无法按原链返回“SCC”,它们被称为“OUT”部分。这部分包含了许多由Yahoo!或其他“SCC”网页链接到的网站,但这些网站没有指向外部的链接。与“OUT”部分相对,“IN”部分则是那些直接或间接与“SCC”部分相连的网页,但却不为“SCC”所知的网站,它约占全部网页的21%。最后,有一些组织不与任何外部网站连接,约占全部网页的8%(Disconnected)。还有较大一部分网页是有很多外部链接的网页,占全部的28%(Tendrils)。

img13

图1 网络的“蝴蝶结”模型

后来为了强调“SCC”部分的中心作用、“IN”与“SCC”以及“OUT”和“SCC”的紧密联系,Bjorneborn对“蝴蝶结”模式做了进一步的修改,如一个网站的主页位于“SCC”部分,而其内部的网页则可能位于“OUT”部分。Bjorneborn还研究了英国大学子网站间的最短链接路径,结果发现计算机科学的网站常常起到连接互不相关学科网站的作用。

与上述的结构分析相对,网络动态分析涉及网络变化的测度、描述和建模。它的一个重大发现就是文献计量学(或其他领域)中的“马太效应”在网络链接中的体现。在网络中,一些网页吸引了千百万的链接,然而也有千百的网页的链接数仅为一个或没有。这种不均衡现象的产生可以归因于:人们往往倾向于将链接指向已有很多链接的网页。当然,没有人会在决定链接哪个网页前数一数各个网页的链接数,但是搜索引擎为人们提供了答案。人们可以通过搜索引擎知道某个网页链接数的多少,因为搜索引擎是根据链接数查找网页,并对它们排序。因此,网页得到的外部链接数越多,则其网络可见性越大。

通过对网页链接分布状况的研究,人们发现“马太效应”适用于某些类型的网页如公司网站主业,而其他类型的则并不适用如大学网站主页。出现不适用的原因极有可能是第二因素在起作用如对网页的知识准备。两个案例都证明了一点,如果一个网页没能吸引一个链接,那么它就不大可能再吸引到链接了。因此为了吸引更多的链接,网站的建设者应当尽量寻找若干个由外部指向自身的链接。然而在网络计量学中将网页的链接数做为评价网页内容的指标并不可靠,因为网页较高的链接数可能是由于其过去某一时间有较高的可见度。

最后,动态网络分析的另一类型就是在线信息变化分析。Koehler从1996年开始跟踪一组网页,他发现这些网页内的信息起初有规律地被更换,而随后即时的网页不再会被更换,在一段时间内呈现稳定状态。Koehler还表示由于专攻不同,不同类型网站网页的保存率会有所不同。随后,Koehler在1997年和2004年对738个网站进行了调查,发现这段期间网站的规模增长了7倍,网站某方面的内容也有很大增加如动态网页、站内链接,与之相对网站的外部链接的增长速度则较慢。此外,研究还发现1997年外部链接中,仅有25%延用到了2004年。

总而言之,网络是一个复杂的、不断变化的实体,尽管它并不规律,但通过大规模的研究人们仍然可以总结出其明显的变化模式。

4.5 测度Web 2.0

Web 2.0是由出版商Tim O'Reily创造的词汇,主要是指面向网民的网站如博客、网络社区,网民在网站上公布信息是它的存在形式。在网民公布信息的大幅增长的背景下,市场智能产业(Market Intelligence Industry)得以产生,许多人开始致力于Web 2.0测度研究。它们都是基于数据挖掘:因为太多网民在网上通过各种渠道如博客、聊天室、电子公告板以及网络社区等,发布了非正式的观点,那么理论上,从这些信息中发现一些行为模式是有可能的,例如网民对产品或社会事件的反应。为了解决类似问题,一些大公司开发了新的软件,如IMB的Web Fountain,微软的Pulse。同时,也有人创建或将原公司改组成专业网络智能公司,如Nielsen BuzzMetrics和Market Sentinel。

利用“消费者自组媒体”的一个典型例子就是基于博客的讨论来预测书籍出售模式。然而,这一尝试并不很成功,可能是由于人们常常是在读过书之后才在博客上做讨论,此时做预测显然太晚了。也有一些商业目的较小的研究项目,如Gruhl等人选择分析了博客空间中的几个主题,发现了几个不同的模式。例如,一些话题只能维持很短一段时间,而有些却可以持续很久,这期间有可能产生或不产生新的话题。一项社会科学性质的研究尝试通过博客和新闻讨论区对大事件的讨论构建出这些事件的追溯时间表(Retrospective Timelines),事实证明实现这个目标的可能较小。如果因为一系列经长期讨论、相对次要的话题并不受关注,而将它们从时间表中去除掉,那么所有事件的重要方面可能被忽略。

除了利用数据挖掘进行研究外,还有许多旨在描述Web 2.0内容和解释Web 2.0用户行为的研究。这里将回顾网络社区的研究。早期对Facebook的大量研究全面阐明了它的用户行为特征。研究采用2004年2月至2006年3月Facebook的数据,这段期间Facebook是仅为美国大学学生服务的网络社区。研究发现用户使用Facebook的时间模式与学习时使用电脑的模式相符,而并非在分散的时间段使用。此外,用户在Facebook中联系的朋友多为同学校的校友,并非身在外地大学的朋友。这说明网络社区是现实社会中人际交流的延伸,尽管在技术上Facebook完全可以支持新人际关系的产生,它并不会根本上激发新的人际关系,对著名的MySpace的定量研究也证明了这一结论。

一项以MySpace为研究对象,旨在探索用户特征,并非用户行为的网络计量研究发现,大约三分之一的用户访问MySpace的周期是一周,他们的平均年龄在21岁左右。尽管有研究发现MySpace上的好友关系是现实生活中朋友关系的反映,但MySpace中男性和女性的朋友中都以女性居多。还有研究发现MySpace中的好友在现实中住处的距离大多在100米内,仅有少数住在同一城镇中。

市场调研公司已经公布了许多有关Web 2.0的统计数据,尽管这些数据的出处不能确定,但有些分析结果也看似合理,由于获取使用权的费用太高,学者们也不大可能利用这些数据。如HitWise宣布至2007年12月,MySpace已取代Google成为全美访问数量最大的网站。据报道这些数据来自美国2 000 000网络用户,为此HitWise和用户的网络服务供应商签署了协议。公布这一分析结果不但提高了HitWise的知名度,同时也使网络研究人员对网络有了进一步了解。

5 结论与展望

5.1 文献计量学

文献计量学自1958年开始演变,那时文献计量学还未建成为一门学科,甚至文献计量学方面还没有出现研究群体。而如今,文献计量学成为各图书情报学院的教授课目,并成为世界各地众多科学评价团体采用的核心学科,如荷兰的科学技术研究中心(the Centre for Science and Technology Studies)。以期刊影响因为代表的众多文献计量学指标已被广为应用,许多国家都借助文献计量学进行有关政府资助科研项目的重大决策。同时,文献计量学指标也在不断发展中,大部分应用广泛、容易计算的文献计量学指标仍存在很大的缺陷。虽然专家们非常了解这些缺陷,但它们却可能被非专业人士忽略。因此文献计量学专家的一项重要工作就是劝说政策制定者使用高质量的指标,并保证没有按面值(at face value)使用指标。

随着信息来源的增长,可用的信息资源的增多,文献计量学发生了变化。如今,Scopus和Google Scholar已经成为向Thomson Scientific发出挑战的两大最重要的文献计量数据库。更重要的是由于专利数据库的数字化和索引化的实现,大规模的专利分析已经容易得多。这也体现了文献计量研究的商业价值。

最后,由于研究范围的扩大,文献计量学也在发生变化。尤其是如今应用范围广泛的相关性分析为理解学术交流过程和学科结构提供了新方法。它通过期刊作者间的引文关系进行分析。可视化后的引文分析更助于理解学科的结构,尤其是对正在兴起并快速发展的重大学科领域,比如纳米技术学和生物技术学。

5.2 网络计量学

现今进行网络计量研究的主要是信息科学和计算机科学方面的专家,当然,他们有着不同的研究动机。在信息科学领域,网络计量学最初集中在类似文献计量学的研究,但现在它已转向更具描述性、面向社会科学的研究方向。随着网络的发展,网络计量技术也极可能进一步发展,并公布更多有价值的描述性发现,商业数据挖掘技术的产生也是可能的。

相对传统的文献计量学,网络计量学有三大优势:①网络比ISI数据库更加快捷。一般来讲,一个科研项目的运行需要经历几个阶段:投入资金、展开研究、报告成果,最后向期刊投稿。从项目开始到成果公布至少需要两年时间。因此,以ISI数据库为依据的文献计量研究必然是追溯性的,是以若干年前的现象为研究对象。而基于网络计量的研究可以在网站建立时开始,并在其宣布研究很久前就展开调研。②网络包含大量与学术有关的作品,如演讲稿、专利、数据、软件和大众网站,因此网络计量学更可能收集到有关学术影响力或者相互关系的数据。③由于所有的网络用户可以免费使用网上资源,这有可能使无力购买ISI数据的人也进行计量分析。

研究发现网络计量学仍有许多缺陷,有些缺陷甚至依附在其优势中。首先,与ISI出版物不同,网络上的信息没有经过质量控制。因此网络数据往往质量较低,这意味着网络计量学的研究发现多为指示性的,不能做为依据。其次,网络数据并不规范,因此只能从中抽取最简单的数据,区分不同类型的信息显得尤为困难。例如,想辨别网上一篇文章的引用者是来自电子期刊还是网络课程并不容易。因此,网络计量的结果往往混合了价值不等的信息。再次,尽管网络数据的时效性很强,但也有可能找不到它的公布日期,因此网络计量的结果大多混合了或新或旧的网络数据。最后,网络数据在某些方面不完善且不够权威。尽管在网上可以免费获得一些学术文章,但大多数的学术文章并不是免费的。此外,有些学者或学术组织建立综合性网站,而有些则没有。这样一来,虽然网络计量可以反映网络中的学术研究情况,但其研究结果也只是对研究活动非常有限的反映。

通过对网络计量学优缺点比较,作者认为网络计量学取代文献计量学的可能性不大,但它在某些方面却很有优势:首先,它可以作为先行研究为后续系统的文献计量研究确定研究领域。其次,由于研究人员的网络发表是其成果公布的重要方面,因此可以利用网络计量学评价学者在网络公布方面的成就。再次,网络计量学可以进行学科间及人口统计学方面的相关性分析。最后,网络计量学有助于W eb 2.0以及社会科学知识库、人类学科研目标的分析。

【参考文献】

[1]Thackray,B.,Brock,H.B..Eugene Garfield:History,Scientific Information and Chemical Endeavour[J].//Cronin,B.,A tkins,H.B..TheWeb of Knowledge:a Festschrift in Honor of Eugene Garfield,Information Today,Medford,NJ,2000:11-23.[ASISMonograph Series]

[2]Garfield,E..Citation Indexing:Its Theory and Applications in Science,Technology and the Humanities[M].New York:Wiley Interscience,1979.

[3]Merton,R.K..TheSociology of Science:Theoretical and Empirical Investigations[M].Chicago:University of Chicago Press,1973.

[4]Borgman,C.L.,Furner,J..Scholarly Communication and Bibliometrics[J].Annual Review of Information Science and Technology,2002(36):3-72.

[5]Zipf,G.K..Human Behavior and the Principle of Least Effort:anIntroduction to Human Ecology[M].Cambridge,MA:Addison-Wesley,1949.

[6]Moed,H.F..Citation Analysis in Research Evaluation[M]//Information Science and Knowledge Management.New York: Springer,2005.

[7]Leydesdorff,L..Why Words and Co-words Cannot Map the Development of the Sciences[J].Journal of theAmerican Society for Information Science,1997,48(5):418-427.

[8]Bradford,S.C..Sources of Information on Specific Subjects[J].Engineering:an Illustrated Weekly Journal 1934,January(26): 85-86.

[9]Oppenheim,C.,Renn,S..H ighlyCited Old Papers and the Reasons Why They Continue to be Cited[J].Journal of the American Society for Information Science,1978,29(5):225-231.

[10]Cronin,B..TheCitation Process:theRole and Significance of Citations in Scientific Communication[M].London:Taylor Graham,1984.

[11]de Solla Price,D..A General Theory of Bibliometric and Other Cumulative Advantage Processes[J].Journal of theAmerican Society for Information Science,1976,27(4):292-306.

[12]Merton,R.K..The Matthew Effect in Science[J].Science,1968,159(3810):56-63.

[13]Garfield,E..Citation Analysis as a Tool in Journal Evaluation[J].Science,1972,178(4060):471-479.

[14]Garfield,E..The Agony and the Ecstasy:the History and the Meaning of the Journal Impact Factor(2005)[C/OL].[2007-09-27].Paper Presented at the Fifth International Congress on Peer Review in Biomedical Publication,Chicago:USA,2005. http://garfield.library.upenn.edu/papers/jifchicago2005.pdf.

[15]Bensman,S.J..Garfield and the Impact Factor[J].Annual Review of Information Science and Technology,2007(41):93-155.

[16]Cawkell,A..Visualizing Citation Connections[J].//Cronin,B.,A tkins,H.B.,eds..The Web of Knowledge:a Festschrift in Honor of EugeneGarfield(Information Today,Medford,NJ),2000:177-194.[ASIS Monograph Series]

[17]SmallH..Co-citation in the Scientific Literature:a New Measure of the Relationship between Two Documents[J/DE].Journal of the American Society for Information Science 1973,24(4): 265-369.Downloaded from http://jis.sagepub.com at WUHAN UNIV LIBRARY on June 3,2010.

[18]Marshakova,I.V..System of Document Connections Based on References[J].Nauchno-Teknicheskaia Informatsiia,1973,2(1):3-8.

[19]White,H.D.,Griffith,B.C..Author Co-citation:A Literature Measure of IntellectualStructure[J].Journal of the American Society for Information Science,1982,32(3):163-172.

[20]White,H.D..Pathfinder Networks and Author Cocitation Analysis:A Remapping of Paradigmatic Information Scientists[J].Journal of the American Society for Information Science 2003,54(5):423-434.

[21]Nicolaisen,J..Citation Analysis[J].Annual Review of Information Science and Technology,2007(41):609-641.

[22]Hirsch,J.E..An Index to Quantify an Individual's Scientific Research Output[C].Proceedings of the National Academy of Sciences,2005,102(46):16569-16572.

[23]Oppenheim,C..Using the H-index to Rank Influential British Researchers in Information Science and Librarianship[J].Journal of the American Society for Information Science and Technology,2007,58(2):297-301.

[24]Cronin,B.,Meho,L.I..Using the H-index to Rank Influential Information Scientists[J].Journal of theAmerican Society for Information Science and Technology,2006,57(9):1275-1278.

[25]Harnad,S..Open Access Scientometrics and the UK Research Assessment Exercise[C]//Torres-Salinas,D.,Moed,H.F.,eds..Proceedings of11th Annual Meeting of the International Society for Scientometrics and Informetrics,CINDOC,Madrid,Spain,2007:27-33.

[26]Bence,V.,Oppenheim,C..The Influence of Peer Review on the Research Assessment Exercise[J].Journal of Information Science,2004,30(4):347-368.

[27]Tertiary Education Commission.Performance-Based Research Fund—A Guideline for 2003[EB/OL].[2007-09-07].http://www.tec.govt.nz/upload/downloads/pbrffinal-july03.pdf.

[28]DEST.InstitutionalGrants Scheme(n.d.)[EB/OL].[2007-09-12].http://www.dest.gov.au/sectors/higher_education/programmes_funding/general_funding/operating_grants/institutional_grants_scheme.htm.

[29]Cozzens,S.E..Assessing Federally-supported Academic Research in the United States[J].Research Evaluation,2000,9(1):5-10.

[30]van der Meulen,B.,Rip,A..Evaluation of Societal Quality of Public Sector Research in the Netherlands[J].Research Evaluation,2000,9(1):11-25.

[31]Pienaar,M..et al..The South A frican System of Evaluating and Rating Individual Researchers:Its Merits,Shortcomings,Impact and Future[J].Research Evaluation,2000,9(1):27-36.

[32]Silvani,A.,SirillG.,Tuzi,F..R&D Evaluation in Italy:More Needs to be Done[J].Research Evaluation,2005,14(3): 207-215.

[33]Butler,L..Explaining Australia's Increased Share of ISI Publications—The Effects of a Funding Formula Based on Publication Counts[J].Research Policy,2003,32(1):143-155.

[34]Adams,J..Research Assessment in theUK[J].Science,2002,296(5569):805.

[35]Meho,L.I.,Yang,K..Impact of Data Sources on Citation Counts and Rankings of LIS Faculty:Web of Science vs.Scopus and Google Scholar[J].Journal of the American Society for Information Science and Technology,2007,58(13):2105-2125.

[36]Norris,M.,Oppenheim,C..Comparing Alternatives to the Web of Science for Coverage of the Social Sciences Literature[J].Journal of Informetrics,2007,1(1):161-169.

[37]Kousha,K.,Thelwall,M..Google Scholar Citations and Google Web/URL Citations:a Multi-discipline Exploratory Analysis[J].Journal of the American Society for Information Science and Technology,2007,58(7):1055-1065.

[38]Jacsó,P..GoogleScholar:The Pros and the Cons[J].Online Information Review,2005,29(2):208-214.

[39]Chen,C..Information Visualization:Beyond the Horizon[M].2nd edition.New York:Springer,2004.

[40]Small,H..Visualising Science Through Citation Mapping[J].Journal of American Society for Information Science,1999,50(9):799-813.

[41]Boyack,K..Using Detailed Maps of Science to Identify Potential Collaborations[C]//Torres-Salinas D.,Moed,H.F.,eds.. Proceedings of ISSI 2007 Volume 1 CSIC,Madrid,2007:124-135.

[42]Leydesdorff,L..BetweennessCentrality Asan Indicator of the Interdisciplinarity ofScientific Journals[J].Journal of theAmerican Society for Information Science&Technology,2007,58(9): 1303-1319.

[43]Chen,C..CiteSpace II:Detecting and Visualizing Emerging Trends and TransientPatterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[44]Gibbons,M.,et al..The New Production of Knowledge[M].London:Sage,1994.

[45]Meyer,M..Academic Patents As an Indicator of Useful Research?A New Approach to Measure Academic Inventiveness[J].Research Evaluation,2003,12(1):17-27.

Mike Thelwall

Journal of Information Science,2008,34(4):605-621(?CILIP,DOI:10.1177/0165551507087238 618)Downloaded from http://jis.sagepub.com at WUHAN UNIV ERSLTY LIBRARY on June 3,2010.

[46]Oppenheim,C..Do PatentCitationsCount?[M]//Cronin,B.,A tkins,H.B.,eds..The Web of Knowledge:a Festschrift in Honor of Eugene Garfield,Medford,NJ:Information Today,2000:405-432.[ASIS Monograph Series]

[47]Leydesdorff,L..The University-industry Knowledge Relationship: Analyzing Patents and the Science Base of Technologies[J].Journal of the American Society for Information Science and Technology,2004,54(11):991-1001.

[48]H.-R.Ke,et al..Exploring Behavior of E-journal Users in Science and Technology:Transaction Log Analysis of Elsevier's Science Direct OnSite in Taiwan[J].Library & Information Science Research,2002,24(3):265-291.

[49]Marek,K.,Valauskas,E.J..Web Logs as Indices ofE lectronic JournalUse:Tools for Identifying a“Classic”A rticle[J].Libri,2002,52(4):220-230.

[50]Kurtz,M.J.,et al..The Bibliometric Properties of A rticle Readership Information[J].Journal of the American Society for Information Science&Technology,2005,56(2):111-128.

[51]Jones,S.,et al..A Transaction Log Analysis of a Digital Library[J].International Journal on Digital Libraries,2000,3(2): 152-169.

[52]Huntington,P.,Nicholas,D.,Jamali,H.R..Site Navigationand Its Impact on ContentViewed by the Virtual Scholar:A Deep Log Analysis[J].Journal of Information Science,2007,33(5):598-610.

[53]Davis,P.M.,Fromerth,M.J..Does the arXiv Lead to Higher Citations and Reduced Publisher Downloads for Mathematics Articles?[J].Scientometrics,2007,71(2):203-215.

[54]Brody,T.S.,Harnad,S.,Carr,L..Earlier Web Usage Statistics As Predictors of Later Citation Impact[J].Journal of the American Society for Information Science and Technology,2006,57(8):1060-1072.

[55]Bj9rneborn,L.,Ingwersen,P..Toward a Basic Framework for Webometrics[J].Journal of the American Society for Information Science and Technology,2004,55(14):1216-1227.

[56]Almind,T.C.,Ingwersen,P..Informetric Analyses on the World Wide Web:Methodological Approaches to‘Webometrics’[J].Journal of Documentation,1997,53(4):404-426.

[57]Mayr,P.,Tosques,F..Google Web APIs:An Instrument for Webometric Analyses?(2005)[EB/OL].[2008-01-07].http://www.ib.hu-berlin.de/%7Emayr/arbeiten/ISSI2005_Mayr_Toques.pdf.

[58]Aguillo,I.F.,et al..Scientific Research Activity and Communication Measured with Cybermetrics Indicators[J].Journal of the American Society for Information Science and Technology,2006,57(10):1296-1302.

[59]Ingwersen,P..The Calculation of Web Impact Factors[J].Journal of Documentation,1998,54(2):236-243.

[60]Cronin,B..Bibliometrics and Beyond:Some Thoughts on Webbased Citation Analysis[J].Journal of Information Science,2001,27(1):1-7.

[61]Thelwall,M..Extracting Macroscopic Information from Web Links[J].Journal of the American Society for Information Scienceand Technology,2001,52(13):1157-1168.

[62]Thomas,O.,Willet,P..Webometric Analysis of Departments of Librarianship and Information Science[J].Journal of Information Science,2000,26(6):421-428.

[63]Barjak,F..Thelwall,M..A Statistical Analysis of the Web Presences of European Life Sciences Research Teams[J].Journal of the American Society for Information Science and Technology,2008,59(4):628-643.

[64]Barjak,F.,Li,X.,Thelwall,M..Which Factors Explain the Web Impact of Scientists'Personal Home Pages?[J].Journal of the American Society for Information Science and Technology,2007,58(2):200-211.

[65]Thelwall,M.,Harries,G..Do Better Scholars'Web Publications Have Significantly Higher Online Impact?[J].Journal of American Society for Information Science and Technology,2004,55(2):149-159.

[66]Thelwall,M..Link Analysis:An Information Science Approach[M].San Diego:Academic Press,2004.

[67]Heimeriks,G.,H9rlesberger,M.,van den Besselaar,P.. Mapping Communication and Collaboration in Heterogeneous Research Networks[J].Scientometrics,2003,58(2):391-413.

[68]Harries,G.,et al..Hyperlinks As a Data Source for Science Mapping[J].Journal of Information Science,2004,30(5): 436-447.

[69]Li,X.,etal..National and International University Departmental Web Site Interlinking[J].Part 2:Link Patterns.Scientometrics,2005,64(2):187-208.

[70]Payne,N.,Thelwall,M..A Longitudinal Study of Academic Webs:Growth and Stabilisation[J].Scientometrics,2007,71(3):523-539.

[71]Payne,N..A Longitudinal Study of Academic Web Links:Identifying and Explaining Change[M].Wolverhampton:University of Wolverhampton,2007

[72]Vaughan,L.,Shaw,D..Bibliographic and Web Citations: What is the Difference?[J].Journal of the American Society for Information Science and Technology,2003,54(14):1313-1322.

[73]Vaughan,L.,Shaw,D..Web Citation Data for Impact Assessment:a Comparison of Four Science Disciplines[J].Journal of the American Society for Information Science&Technology,2005,56(10):1075-1087.

Mike Thelwall

Journal of Information Science,2008,34(4):605-621(?CILIP,DOI: 10.1177/0165551507087238 619)Downloaded from http://jis.sagepub.com at WUHAN UNIV ERSLTY LIBRARY on June 3,2010

[74]Kousha,K.,Thelwall,M..Motivations for URL Citations to Open Access Library and Information Science Articles[J].Scientometrics,2006,68(3):501-517.

[75]Bar-Ilan,J..The Use of Web Search Engines in Information Science Research[J].Annual Review of Information Science and Technology,2004,38:231-288.

[76]Lawrence,S.,Giles,C.L..Accessibility of Information on the Web[J].Nature,1999,400(6740):107-109.

[77]Introna,L.,Nissenbaum,H..Shaping theWeb:Why the Politics of Search Engines Matters[J].The Information Society,2000,16(3):1-17.

[78]van Couvering,E..New Media?The Political Economy of Internet Search Engines[J/OL].[2008-01-07].Annual Conference of the International Association of Media&Communications Researchers,Brazil:Porto Alegre,2004.Available at http://personal.lse.ac.uk/vancouve/IAMCR-CTP_SearchEnginePoliti-calEconomy_EVC_2004-07-14.pdf.

[79]Vaughan,L.,Thelwall,M..Search Engine Coverage Bias:Evidence and Possible Causes[J].Information Processing and Management,2004,40(4):693-707.

[80]Bar-Ilan,J.,Peritz,B.C..Evolution,Continuity,and Disappearance ofDocuments on a Specific Topic on theWeb:A Longitudinal Study of‘Informetrics’[J].Journal of the American Society for Information Science and Technology,2004,55(11):980-990.

[81]Thelwall,M..Extracting Accurate and Complete Results from Search Engines:Case Study Windows Live[J/OL].[2007-05-22].Journal of the American Society for Information Science and Technology,2008,59(1):38-50.Available at http://www.scit.wlv.ac.uk/%7Ecm1993/papers/2007_Accurate_Complete_preprint.doc.

[82]Snyder,H.W.,Rosenbaum,H..Can Search Engines be Used for Web-link Analysis?A Critical Review[J].Journal of Documentation,1999,55(4):375-384.

[83]Bar-Ilan,J..Search Engine ResultsOver Time—A Case Study on Search Engine Stability[J/OL].[2005-01-07].Cybermetrics(1999).Available at http://www.cindoc.csic.es/cybermetrics/articles/v2i1p1.html.

[84]Mettrop,W.,Nieuwenhuysen,P..Internet Search Engines—Fluctuations in Document Accessibility[J].Journal of Documentation,2001,57(5):623-651.

[85]Rousseau,R..Daily Time Series of Common Single Word Searches in AltaVista and NorthernLight[J/OL].[2006-07-25].Cybermetrics2/3(1999).Available at http://www.cindoc.csic.es/cybermetrics/articles/v2i1p2.html.

[86]Smith,A.G..Does Metadata Count?A Webometric Investigation[M]//Tegelaars,M.,ed..Proceedings of DC-2002,Florence,14-17 October 2002,Firenze:Firenze University Press,2002: 133-138.

[87]Craven,T..Variations in Use of Meta Tag Keywords by Web Pages in Different Languages[J].Journal of Information Science,2004,30(3):268-279.

[88]Broder,A.,et al..Graph Structure in the Web[J].Journal of Computer Networks2000,33(1/6):309-320.

[89]Bj9rneborn,L..Small-world Link Structures Across an Academic Web Space—A Library and Information Science Approach[D].PhD Thesis.Denmark:Departmentof Information Studies(Royal School of Library and Information Science,Copenhagen,2004.

[90]Bj9rneborn,L..“Mini Small Worlds”of Shortest Link Paths Crossing Domain Boundaries in an Academic Web Space[J].Scientometrics,2006,68(3):395-414.

[91]Barab︶si,A.L.,A lbert,R..Emergence of Scaling in Random Networks[J].Science,1999,286(5439):509-512.

[92]Brin,S.,Page,L..The Anatomy of a Large Scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1/7):107-117.

[93]Pennock,D.,et al..W innersDon't Take All:Characterizing the Competition for Links on the Web[C].Proceedingsof the National Academy of Sciences,2002,99(8):5207-5211.

[94]Koehler,W..A Longitudinal Study of Web Pages Continued:A Report after Six Years[J/OL].[2007-09-20].Information Research,9(2).Available at:http://informationr.net/ir/9-2/paper174.html.

[95]Ortega,J.L.,Aguillo,I.,Prieto,J.A..Longitudinal Study of Content and E lements in the Scientific Web Environment[J].Journal of Information Science,2006,32(4):344-351.

[96]Gruhl,D.,et al..How to Build a Web Fountain:An Architecture for Very Large-scale Text Analytics[J].IBM Systems Journal,2004,43(1):64-77.

[97]Gamon,M.,et al..Pulse:Mining Customer Opinions from Free Text(IDA 2005)[J].LectureNotes in Computer Science,2005(3646):121-132.

[98]Gruhl,D.,et al..The Predictive Power of Online Chatter[M]//Grossman,R.L.,et al.,eds..KDD'05:Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,New York:ACM Press,2005: 78-87.

Mike Thelwall

Journal of Information Science,2008,34(4):605-621(?CILIP,DOI: 10.1177/0165551507087238 620)Downloaded from http://jis.sagepub.com at WUHAN UNIV ERSLTY LIBRARY on June 3,2010

Mike Thelwall

Journal of Information Science,2008,34(4):605-621(?CILIP,DOI: 10.1177/0165551507087238 621).

[99]Gruhl,D.,et al..Information Diffusion Through Blogspace[EB/OL].[2006-07-10].New York.Available at http://www2004.org/proceedings/docs/1p491.pdf.

[100]Thelwall,M.,Prabowo,R.,Fairclough,R..A re raw RSS Feeds Suitable for Broad Issue Scanning?A Science Concern Case Study[J].Journal of the American Society for Information Science and Technology,2006,57(12):1644-1654.

[101]Thelwall M.,Prabowo,R..Identifying and Characterizing Public Science-related Concerns from RSS feeds[J].Journal of the American Society for Information Science&Technology,2007,58(3):379-390.

[102]Golder,S.A.,Wilkinson,D.,Huberman,B.A..Rhythms of Social Interaction:Messaging Within A Massive Online Network[C/OL].[2008-01-07].3rd International Conference on Communities and Technologies(CT2007),East Lansing,MI,http://www.hpl.hp.com/research/idl/papers/facebook/facebook.pd.

[103]d.boyd,Friendster and Publicly Articulated Social Networks[C/OL].[2007-07-03].Conference on Human Factors and Computing Systems(CH I 2004,Vienna:April 24-29),New York:ACM Press,2004.http://www.danah.org/papers/CH I2004Friendster.pdf.

[104]d.boyd,Friends Friendsters,MySpace.Top 8:Writing Community into Being on Social Network Sites[J/OL].[2007-06-23].First Monday,2006,11(2).http://www.firstmonday.org/issues/issue11_12/boyd/index.html.

[105]Thelwall,M..Social Networks,Gender and Friending:An Analysis of My Space Member Profiles[J/OL].[2007-08-23].Journal of the American Society for Information Science and Technology(forthcoming).http://www.scit.wlv.ac.uk/~cm1993/papers/MySpace_d.doc.

[106]Escher,T..The Geography of(Online)Social Networks(Web 2.0,York University)[M/OL].[2007-09-18].http://people.oii.ox.ac.uk/escher/wp-content/uploads/2007/09/Escher_York_ presentation.pdf.

[107]Prescott,L..HitwiseUS Consumer Generated Media Report[M/OL].[2007-03-19].http://www.hitwise.com/.

[108]Wilkinson,D.,et al..Motivations for Academic Web Site Interlinking:Evidence for the Web As a Novel Source of Information on Informal Scholarly Communication[J].Journal of Information Science,2003,29(1):49-56.

[109]Robinson,S.,et al..The Role of Networking in Research Activities(NetReAct D4.1)[M].Bonn,Germany:Empirica Gesellschaft für Kommunikations-und Technologieforschung mbH,2006.

【作者简介】

img14

邱均平,男,1947年出生,湖南涟源市人。1969年毕业于武汉大学化学系,1978年考入武大科技情报专业学习,1981年毕业留校任教至今。1998年作为高级研究学者应邀访问了美国科学情报研究所(ISI)等14个著名图书情报机构。2000年应邀赴美国西东大学访问、研究,被吸收为“美国信息科学与技术学会”(ASIST)理事。现任武大信息管理学院教授、博士生导师、中国科学评价研究中心主任、图书情报知识杂志副主编;兼任中国管理科学研究院、浙大等多个单位的研究员、教授或博导、中国索引学会副理事长、中国科学学与科技政策研究会常务理事兼科学计量学委员会副主任、中国科技情报学会常务理事、中国社科信息学会理事、中国竞争情报研究会常务理事、中国图书馆学会编译出版委员会委员、期刊委员会副主任、中国社会科学研究评价中心(南大)指导委员会委员以及《情报学报》、《情报科学》等15种杂志编委,并被评为湖北省有突出贡献的中青年专家,享受国务院特殊津贴。主持或参加了24个项目的研究工作,其中国家级16项,主持的18项,出版著作15部,在《中国软科学》、《情报学报》、《中国图书馆学报》等重要期刊发表论文260多篇,其中40余篇获奖或被人大报刊复印资料全文转载,获35项学术奖励。主持了多届科研评价与大学评价国际研讨会,其显著学术成就被载入《世界名人录》等21部大型权威辞书,在国内、外学术界产生了广泛影响,被誉为“我国文献计量学和科学计量学的主要奠基人”。主要研究方向为信息计量学、知识管理、科学评价。

杨瑞仙,女,武汉大学信息管理学院情报学专业博士生。主要研究方向为信息计量学与知识管理。

【注释】

(1)原文出处:Mike Thelwall.Bibliometrics to Webometrics[J].Journal of Information Science,2007,34(4):1-18.原文作者简介:Mike Thelwall,School of Computing and IT,University of Wolverhampton,Wulfruna Street,Wolverhampton WV1 1SB,UK;E-mail: m.thelwall@wlv.ac.uk.

(2)原文是“汤姆森科技”,实际上,现在已经改名为“汤姆森路透科技集团”。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈