本研究的国内同被引数据的获得

时间：2023-02-27 百科知识版权反馈

【摘要】：5．2．3　本研究的国内同被引数据的获得为了探索不同的方法获得的同被引数据构建的学科知识图的可靠性，本研究采取三种不同的方法，以清华同方公司出版的《中国引文数据库》和《中国学术期刊全文数据库》为数据来源获得原始同被引数据频次。

本研究的国内同被引数据的获得_基于引文分析可视化的知识图谱构建研究

5．2．3　本研究的国内同被引数据的获得

为了探索不同的方法获得的同被引数据构建的学科知识图的可靠性，本研究采取三种不同的方法，以清华同方公司（CNKI）出版的《中国引文数据库》和《中国学术期刊全文数据库》为数据来源获得原始同被引数据频次。

①采取传统的方式，利用该数据库系统引文检索中的著者同被引检索功能，在线检索出105位核心著者的同被引次数，共有（105×105）/2≈5 512组不同的数据。

具体方法是：在检索路径中选择“参考文献”字段，在检索词中分别输入任意两位著者的姓名，二者为逻辑“和”关系，而后得出两位著者的同被引次数以及同被引的文献列表。检索年限选择系统的默认值1979—2006年，检索学科范围为农业、生物两大类，得出的著者同被引矩阵称为“同被引矩阵A”（参见表5-4）。

由于CNKI将来源文献的全部参考文献作为一个整体保持原貌抽取出来标引为“参考文献”字段，检索时输入的检索词就在来源文献的全部参考文献信息中进行匹配，因此，即使作为第二著者与其他著者的同被引频次也能被检索出来。由此形成的另一个结果就是著者之间的合著关系也被算作了同被引，即两个著者之间如果共同署名发表一篇文章，这两个著者之间的同被引总频次也要加1。虽然从形式上来说，这样做就把同被引与合著混在了一起，但基于“两个著者之间同被引频次越多，二者之间关系越紧密”这一理论，合著一次被记作同被引增加一次与这理论并不矛盾，因为一般来讲，具有合著关系的著者之间关系比较紧密。

表5-4　经过缩减后的矩阵A（片断）（计合著者）

②与前文介绍的Paisley的方法相同，下载引文库中题目中含有“杂交水稻”的文献题录及引用这些文献的所有文献题录集合，在著者项里只保留第一著者，导入自建的数据库中，通过程序查询引用这105位作者作为第一著者的论文的所有文献集合，根据这些数据计算这些作者作为第一著者两两之间的同被引频次，得到“同被引矩阵B”（参见表5-5）。

表5-5　经过缩减后的矩阵B（片断）（只计第一著者）