首页 理论教育 利用引文库构造同被引矩阵的原理及特殊数据的处理

利用引文库构造同被引矩阵的原理及特殊数据的处理

时间:2022-02-27 理论教育 版权反馈
【摘要】:5.2.1 利用引文库构造同被引矩阵的原理及特殊数据的处理收集著者同被引数据的过程就是统计两两著者之间的同被引强度、形成同被引矩阵的过程。,N,表中的数据Xij表示第i个与第j个著者的同被引强度(i,j=1,2,…显然,同被引矩阵是对称方阵(Xij=Xji;i,j=1,2,…随着著者同被引分析的发展,更多的学者认为把其计零或作为缺失值比较合适[1]。
利用引文库构造同被引矩阵的原理及特殊数据的处理_基于引文分析可视化的知识图谱构建研究

5.2.1 利用引文库构造同被引矩阵的原理及特殊数据的处理

收集著者同被引数据的过程就是统计两两著者之间的同被引强度、形成同被引矩阵的过程。

需要注意的是,关于著者之间的同被引强度,国内的文献计量学方面的著作很多都把两个著者的同被引强度解释为同时引用这两个著者发表的文献的作者的数量,这是不符合实际的。根据McCain 1990年所做的关于著者同被引分析技术的综述[1],通过SCI获取两个著者的同被引频次时,解释为同时引用这两个著者的文献的篇数。因此,著者同被引频次(强度)应该以论文数量来计量,而不应该以著者数量来计量。同样地,期刊同被引强度、类目同被引强度都应该以同时引用它们的论文的数量来计量,实际上,《期刊引证报告》(JCR)对某一类目被其他类目引用的频次也是以文献数量来计量的。

统计著者同被引强度的原理可归结为:

①找出引用了著者i的文献集合DBi

②找出引用了著者j的文献集合DBj

③比较DBi与DBj中的对象,相同的文献数目即为著者i与j的同被引强度。

为了便于分析,我们统计到N个著者两两之间的同被引强度后,常把这些数据排列成规定的形式,表的上方从左到右、表的左方从上到下依次列出分析对象序号1,2,…,N,表中的数据Xij表示第i个与第j个著者的同被引强度(i,j=1,2,…,N),如表5-3所示。

在进行数据处理时,如果不考虑表头,将表中数据单独列出就是同被引数据的矩阵。显然,同被引矩阵是对称方阵(行数与列数相同)(Xij=Xji;i,j=1,2,…,N)。当i=j时,Xij也就是主对角线中的数据,实际上表示的是著者自己与自己之间的同被引强度。究竟应该怎么算著者和自己之间的同被引强度,刚开始并没有一个明确的共识。H.D.White和B.C.Griffith在1981年发表的文章中,用他们的矩阵中最高的同被引频次来替代全部对角线中的数据[17]。随着著者同被引分析的发展,更多的学者认为把其计零或作为缺失值比较合适[1]

表5-3 著者之间同被引统计表样例

img46

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈