首页 理论教育 情报离散分布与模型的一致性

情报离散分布与模型的一致性

时间:2022-03-04 理论教育 版权反馈
【摘要】:科学情报离散分布规律与Logistic模型的一致性似乎并不偶然,因为种群生物学中生物的属按其种的分布本身就符合布拉德福-齐夫分布。我们之所以没有将对数形式的自变量转换为一般形式的变量,正是希望保持其Logistic函数形式,从理论上阐明科学情报离散分布的态势,同时保持其与科学情报增长趋势的一致性。

11.3.2 情报离散分布与Logistic模型的一致性

如前所述,我们通过实证分析发现科学情报在文献层次和内容层次上都表现出同样的分散态势,具有相同的分散规律。计算机对来自Biosis、Inspec、Compendex数据库的4组实验数据模拟绘制出的曲线是一条生长曲线。通过K-S检验,发现与3参数Logistic函数拟合得很好,且比莱姆库勒函数精确得多。因此在文献信息流规律中,除了增长、老化具有生长曲线描述的规律,满足Logistic函数外,我们又发现科学情报的离散分布也具有同样的规律。

Logistic模型最早起源于生态学领域对于种群生物学的研究,即研究植物、动物与它们所处环境之间的相互关系。所谓种群(population)是指在特定时间内占据一定空间的同一物种的集合,一个最基本的定量单位就是所研究种群的个体数,而种群生物学主要研究种群的时间动态及调节机理,

一定空间内单个生物种群随时间变化的模型主要有Malthus模型、McKendric模型、Logistic模型和离散模型。通常假设种群数是时间t的函数N(t),并认为它关于时间t是连续的并且充分光滑,它的导数dN/dT给出了这个种群增长的速率,Logistic模型是其中最著名的一种(11)

运用Logistic模型研究一定空间内单个生物种群随时间变化的规律,一般有以下几个假设和限制:①种群仅仅是时间t的函数N(t),忽略了个体间的差异,如年龄,性别,大小等对种群增长的影响;②N(t)是连续且充分光滑的;③生育和死亡对任何生物个体来说都是随机发生的;④种群个体的平均增长率是种群大小的一个减函数r(N),并且存在一个饱和水平K>0,使得r(K)=0;⑤生物体处于一种不随时间变化的定常的环境中,即环境变化不会对种群增长行为产生影响;⑥种群是在一定的空间内封闭的,即不存在迁移现象。(12)

只有在完全满足上述几个条件时,单个生物种群随时间变化的规律才能体现出Logistic模型所揭示的生长曲线规律。

Logistic模型的基本结论是,在一个有限资源环境内种群是不可能无限增长的,它总会存在一个饱和水平,当种群增长到接近于这个饱和水平时,其增长速度应该逐渐减慢而渐近于零。

Logistic模型最初是用来研究生物种群增长规律的。在情报学领域,我们曾利用这一模型来描述科学文献的增长和老化,得到了符合实际的结论。但这一模型为什么能够较为精确地拟合科学情报离散分布规律呢?我们给出如下分析:

(1)科学情报的离散分布主要研究某一学科主题范围内科学情报单元的分布规律。如在取自BIOSIS数据库的第一组数据中,我们仅仅选择了分类号为CC33508、分类名为VIROLOGY—PLANT—HOST—VIRUSES范围内的情报单元,学科分支或主题范围就相当于某一生物种群。

(2)科学情报在随时间推移的演化进程中有两个相互联系、相互影响、不可分割的趋势,即总量增长和离散分布。前者表现为科学情报在纵向上量的累积,后者表现为科学情报在横向上量的扩散。这两个趋势实质上都是科学情报的增长,如同科学文献的增长,也如同生物种群的增长一样,因而可以用Logistic模型来描述。不同的是情报离散分布的Logistic模型是在半对数坐标轴上取得的,时间变量隐含于按载文量递减排列的期刊序号中,与科学文献增长的变量之间刚好存在一个对数歪曲。

(3)我们在研究科学情报离散分布时,将科学情报单元的累积仅仅定义为期刊累积数r的函数R(r),即科学情报累积量只随统计的期刊累积数量的变化而变化,而期刊累积数本身就是时间t的累积值且是函数中唯一的自变量,忽略了其他可能影响科学情报单元累积量变化的因素。

(4)R(r)是连续且充分光滑的,即假设R(r)在任何一点均可微。

(5)假定科学文献的增长、发展是按正常规律进行,不考虑非正常情况下的离散分布,如战争、重大自然灾害等。如在本研究中取自BIOSIS的第一组数据取值范围为1995年到1997年,其间全球范围内并未发生对生物学有重要影响的非科学事件。

(6)基于情报学中的文献增长与老化规律,我们确认科学情报的增长是分阶段的,在增长到一定程度时必然会进入一个相对平稳的状态。

科学情报总量增长遵循生长曲线规律早已被学术界所认识,突出体现在人们运用Logistic模型来描述科学文献的增长和老化规律,而科学情报的离散分布也在相当程度上遵循生长曲线的规律却未曾被认识。事实上,经典布拉德福分布曲线和莱姆库勒函数也形似“S”形曲线,只不过人们在模拟这些曲线时,排除了“格鲁斯”下降部分,没有将其当做“S”形曲线来处理。最有代表性的便是布鲁克斯方程和莱姆库勒函数,前者分别用两个函数表示核心区曲线和相邻各区的直线部分,后者则用2参数函数模拟分布曲线。这两个函数的共同优点是模型简单、参数少、直观性强。布鲁克斯方程的直线部分过于简化粗糙、误差较大,莱姆库勒函数被认为是最精确的模型,但其对曲线中间段的拟合较差。我们用计算机绘制出科学情报(文献单元和内容单元)的布氏分布曲线,直接用Logistic函数模拟整个曲线,将布氏分布曲线的3个部分统一到一个模型中,而且较好地通过了误差检验,对理论研究和实际应用都具有重要意义,西蒙的广义布氏分布模型将布氏定律、齐夫定律、洛特卡定律统一到一个函数中,科学情报离散分布符合生长现象,进一步将布-齐分布,科学情报的增长与老化统一到Logistic模型中,说明情报学基本定律之间的天然一致性,同时也证明了科学情报离散分布规律在情报学中的奠基性意义。

科学情报离散分布规律与Logistic模型的一致性似乎并不偶然,因为种群生物学中生物的属按其种的分布本身就符合布拉德福-齐夫分布。

我们利用生长曲线来描述科学情报在文献单元和知识单元层次上的离散分布规律尽管取得了一定成功,但却是在半对数轴上取得的,即以Logr为横坐标对曲线模拟的结果。如果将对数坐标转换成一般坐标,则函数的表现形式将会是另一种模型,其形式也并不简化,应用也不一定方便。我们之所以没有将对数形式的自变量转换为一般形式的变量,正是希望保持其Logistic函数形式,从理论上阐明科学情报离散分布的态势,同时保持其与科学情报增长趋势的一致性。

以上研究说明,情报学的基本定律——布拉德福定律,无论对于宏观层次的文献还是对微观层次的情报、知识和信息都是正确的,并且可以进一步统一于Logistic模型,不仅包含布—齐分布系(布拉德福定律、洛特卡定律和齐夫定律),而且将指数增长与老化纳入其中。这说明,我们无论以什么样的形式来表达情报、知识和信息,其分布规律都是不变的。因此,无论是文献范式还是IRM-KM范式,情报学基本定律这一影响情报学发展的核心和主线始终保持同样的形式,仅仅是分散程度更大而已。这一结论的重要意义在于:无论技术手段怎样变化,信息需求利用环境怎样变化,我们所处理的知识信息对象怎样变化,情报学始终保持着自身固有的发展路径。而且,有关信息、知识和情报离散分布的绝对性以及揭示这种分散的方法的普遍性、实用性和简明性使情报学有可能和有能力向其他学科提供理论和研究方法,对其他学科产生影响,这正是一个学科走向成熟的关键。

【注释】

(1)A.H.米哈诺夫等著.科学交流与情报学[M].4版.徐新民译.北京:科学技术文献出版社,1980:97-98.

(2)L.埃格希等著.情报计量学[M].1版.田苍林等译.北京:科学技术文献出版社,1992:277-345.

(3)Pedro Alavarez Antonio Pulgarin.The Rasch Model[J].Measuring information from keywords:the diabetes field.JASIS,1996,47(6):468-476.

(4)焦玉英等.信息检索[M].武汉:武汉大学出版社,2000:342-351.

(5)王翠平.我国网络信息资源的分布[J].情报科学,2002(7):759-763.

(6)王日芬等.网络信息资源分布及查询案例分析[J].情报科学,1999(1):70-74.

(7)蔡明月.资讯计量与网络计量[J].新世纪图书馆,2003(2):8-16.

(8)安新颖.网络信息资源组织研究[J].现代情报,2003(2):47-50.

(9)R A Fairthornt.Emperical hypothetic listribution:Bradford-Zips-Mandelbrot for bibliometric description and prediction[J].Journed of Documentation,1969,25(4):426.

(10)严怡民主编.情报学概论[M].武汉:武汉大学出版社,1983: 136-140.

(11)刘来福,曾文艺.数学模型与数学建模[M].北京:北京师范大学出版社,1997:216-218.

(12)安鸿志,陈敏.非线性时间序列分析[M].上海:上海科学技术出版社,1998:167-170.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈