首页 理论教育 网络信息内容的分布规律介绍

网络信息内容的分布规律介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:我们的一项研究采用了布拉德福的方法来处理和研究网络信息的分布[9]。再次,信息审查同科学期刊的差异也影响了网络信息的分布。而信息一旦进入零成本,低限制的发布环境,无疑将造成信息激增,同时分布更加分散。

3.5.1 网络信息内容的分布规律

我们前面学习了布拉德福定律,它揭示的是科学文献信息分布的最普遍的规律——集中与分散的规律。目前的研究成果表明,网络条件下信息资源的分布仍然满足集中与分散的规律,但是网络条件下的信息发布环境与传统期刊出版条件相比有很大不同,因而这种集中与分散的程度表现出了变化。

我们的一项研究采用了布拉德福的方法来处理和研究网络信息的分布[9]。我们通过一些工具性网站2003年5月1日~5月3日中“网络经济”这个条目命中的网页数量的集中与分散分布发现,其分布的近似曲线与布拉德福分布曲线比较接近(如图3-8所示)。前半段数据较少,表明在门户网站搜索引擎的信息搜集中,信息资源集中的网站比较集中,而且信息共享形成一些信息集中的网站群。同时,由于信息检全率有限,对于非核心网站的信息统计数量明显不足,表现出的格鲁斯下垂格外明显。而在内容分析中,虽然网络经济的相关网页约150 000篇,但根据搜狐的统计结果,相关网页超过10页的网络经济相关网站只有120个,超过20页的相关网站不过23个,最多的咨询也不过2 000页左右,大量相关网页分散在其他网站,网络信息分布更加分散。

img89

图3-8 以“网络经济”为主题的网页的布氏分布曲线

在计量分析的过程中,虽然数据有限,而且许多门户网站使用同样的搜索引擎,搜索结果的形式也不太一样,但网络信息分布与文献分布的差异比较明显。搜索引擎的共享使许多网站都具有相同的信息搜索能力,像百度搜索引擎被100多个地方网站和30多家专业网站采用,对网络信息的分布影响很大。其次,摆脱了版面与经费限制,也使网络信息离散程度加剧。再次,信息审查同科学期刊的差异也影响了网络信息的分布。科学期刊都有严格的审查制度,而且科技文献发表有一定的成本,其结果必然会有一个均衡。而信息一旦进入零成本,低限制的发布环境,无疑将造成信息激增,同时分布更加分散。另外,用户对网络信息的浏览也是造成网络信息集中分散的重要原因,从浏览范围上看,大多数网络信息用户的浏览范围局限于少数几个核心网站。这种状况主要受搜索成本的影响。用户获取信息资源必须付出一定的搜索成本,而一旦得到,今后就可以在不付出任何搜索成本的条件下使用该信息资源。所以,今后用户不愿进行新的信息搜索,就形成了较高的用户忠诚度。另一方面,不管是资金、技术、人力资源还是市场机会,都集中在少数优秀的网络,导致马太效应特别突出,更使得网络信息用户的浏览范围局限于少数几个核心网站。核心网站具有良好的市场前景,许多的网站都愿意与这些网站链接,提高网站的信息网罗程度,提高网络信息资源的信息质量,更加吸引网络信息用户。

台湾学者蔡明月采用文献计量学的研究方法,就网络上有关该主题且由台湾地区自建的网站与网页(以下行文以网页统称)进行计量分析[10]。她于2002年5月5日至7日,利用Google搜寻引擎,以“电子图书馆or数字图书馆or数字博物馆”,并配合设限网域site:tw的检索策略,查寻台湾地区建立的有关数字图书馆主题的网页。最后共得5 850个网页,其中907个为商业(.Com)机构所制作,4 259个为教育(.Edu)网站,政府(.Gov)单位制作的有387个,网络事业(.Net)单位制作了23个;另外246个是由组织机构(.Org)所制作,最后个人(.Idv)制作的网页亦有28个。图3-9为根据统计数据所绘制的“数字图书馆”网页之布拉德福分布图,其横轴为单位排名之自然对数,纵轴为累积的网页数。由图3-9可见,其分布曲线与典型的布拉德福分布图颇为相近。首先,排名前十名的网站形成一非线性的曲线,继之为一线性的区域,当排名超过55左右之后,网页累积之曲线斜率开始变小,形成一尾端下滑的偏垂区段。位于曲线部分前十名的网站则形成所谓的核心网站。

img90

以“数字图书馆”为主题的网页(台湾地区)的布氏分布曲线

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈