首页 百科知识 由引文网络时序分析可视化构建知识图谱

由引文网络时序分析可视化构建知识图谱

时间:2022-02-27 百科知识 版权反馈
【摘要】:3.1 由引文网络时序分析可视化构建知识图谱引文关系既是一种网状关系,同时又具有时序性。结果表明,引文权重最高的节点事件正是Asimov判断为最重要的同一个事件。但是作为一种方法,引文分析可以极大地简化序列和关系网络的构建工作,而这些工作正是作为历史研究本质的评价、阐述和解释的起点。因此,在特定的时间段内,对于科学史研究而言,通过引文分析构建编年图不失为一个能够简化研究过程、增加成果的新方法。
由引文网络时序分析可视化构建知识图谱_基于引文分析可视化的知识图谱构建研究

3.1 由引文网络时序分析可视化构建知识图谱

引文关系既是一种网状关系,同时又具有时序性。对这种具有时序性的引文关系网进行分析研究,可以展示某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去脉,为科学史的研究提供一种量化的方法。这是因为,科技史研究的一个重要方面就是研究科学技术知识的演变,探讨科学发现历史的结构,而科学的关键事件、关键人物和他们之间的联系则构成了这种科学发现的结构[11]。而所谓的科学的关键事件,实际上是科学的重要发现和研究成果,将科研成果用语言文字表达出来,并予以发表,是任何一项研究必要的完成阶段,因此当把科学历史的发展看作是在不同的时间点上发生的一系列的历史事件时,科研论文就是这些特定事件的记录,科学文献的引用体现了这些事件的由来和发展。一般情形下,在一定的学科范围内被引证次数多的论文其影响和重要性更大,在一定程度上标志着某一重要的科学事件。因此,把这些高被引论文按照时序进行排列并分析论文之间的引用和被引用的关系,就可以了解某一段时间的科学发展史。

最早用这种方式进行科学史研究的人就是SCI的创始人E.Garfield。1955年,Garfield在一篇论文中就曾提到参考文献对历史研究的潜在作用[1]。1960年,在美国国家健康研究所(the National Institute of Health)工作的遗传学家Gordon Allen博士给加菲尔德送去了一张手工绘制的表示15位研究核酸染色的科学家的引文关系的网络图,如图3-1。该图采用按编年次序纵向排列的圆圈表示论文,用连线表示论文之间的参考关系。该图不仅表现出了核酸染色方法从20世纪40年代至60年代的发展过程(通过论文及其相互间的引证关系),同时也清楚地指出了文献的相对重要性。例如图3-1中文献2(Michaelis,1947)应是该领域中最重要的一篇文献,因为它曾多次地被不同时期的文献所引用。Allen的本意是提醒加菲尔德引文关系类似于一个网络,将要创办的引文索引应该允许从网络中的任何一个作者出发向前回溯找到所有的相关研究者[2],但这种创意使Garfield强烈意识到这是一种简明、易于理解的概述科学发展史的方法[1]

img4

图3-1 核酸染色引文网络图

为了测试这种方法的准确性,1964年,Garfield等人首先选择Isaac Asimov博士的著作《遗传密码》作为对照,根据该书对DNA理论发展作的一个清楚、简明的记录,手工绘制成一幅Asimov描述的事件(被称为节点事件)及其关系的网络图,然后查找首次报道Asimov所述事件的论文(被称为节点论文)及其参考文献,并根据这些论文之间的引用关系绘制生成第二幅网络图(引文编年图)。

对这两个图进行比较发现,两者在事件的关系方面有65%的重复。为了确定论文所代表的事件的相对重要性,对节点论文计算出权重,每个节点被赋于的权重反映与网络中的所有其他节点连结的或被这些节点连结的参考文献的数量和类型。结果表明,引文权重最高的节点事件正是Asimov判断为最重要的同一个事件。同时,引文编年图还识别出了Asimov没有提到的一些论文和研究人员,这些论文不与任何节点事件相对应,但却足够重要,因而被节点论文引用。

Garfield于1968年对这一方法又进行了简化,仅仅是从关于《遗传密码》的一篇综述中得到30篇论文,用这些论文作为来源文献,查找它们引用的文献,编制了这些书目的引文索引,该索引由数百篇论文组成,根据其中论文被引用频次,排除掉被引频次少于5次的论文,最后得到28篇被引用频次最高的论文。由于担心原始来源文献数量过少影响精确度,为了确认这些论文的重要性,Garfield还把这些论文与1967年版的SCI核对,发现这些论文即使在SCI中与同一的学科的其他文献相比,仍是较重要的论文。根据这28篇论文的引用关系和事件先后,绘制成图,反映出了1960年以来遗传学的进步,虽然没能包括早期研究发生的所有事件,但提供了这一时期核心工作的一个有价值的概要。

引文分析构建的知识图谱提供了一种识别关键事件的方法,包括关键事件的编年排列、事件之间的关系和相对重要性,这也是编写某一特定的科学活动史的非常有用的工具。同时,它还是一种机械的方法,相关人员不需要对所研究的学科历史或主题具有专门的知识或才能就可以做出结果。作为一种方法研究科学史,引文分析可以极大地简化序列和关系网络的构建工作,而这些工作正是作为历史研究本质的评价、阐述和解释的起点。

由于书目引用只是从20世纪初开始才作为科学出版的一种惯例,我国则更晚,基本上到了20世纪80年代才逐步走向正规,因此回溯研究超过这一时间,引文分析产生的结果就不再真实。同时,由于这一方法要搜集大量的引文数据,因此学者们更习惯于运用SCI中的数据,而SCI是从20世纪60年代才开始出版的,这无疑更加限制了这种方法对较早年代科学史研究的适用性。

但是作为一种方法,引文分析可以极大地简化序列和关系网络的构建工作,而这些工作正是作为历史研究本质的评价、阐述和解释的起点。因此,在特定的时间段内,对于科学史研究而言,通过引文分析构建编年图不失为一个能够简化研究过程、增加成果的新方法。

由于这种方法是一种机械的方法,因此可以用计算机编制一个引文索引,做许多分析工作,去识别各种关系及其相对重要性,生成历史编年图,以直观的可视化的方式揭示相关学科的发展情况。但是由于对引文之间的关系的分析以及编年图的生成对计算机硬件资源要求较高,比如要有足够大的内存、运算速度要足够快,这在计算机硬件资源还比较稀缺昂贵的情形下是难以达到的,因此直到2001年加菲尔德和他的同事们才推出一套比较完整的引文编年可视化系统HistCite[3],经过几年的完善和修改,该软件已经具备相当多的功能。不论对于开展文献信息服务,还是对于专业科研人员,HistCite都是一个比较有用的鉴别重要文献及其相关关系的重要工具。同时,HistCite也是国内外唯一可见到的直接导入数据,不需用户在过程中进行干预辅助就可以完成最终结果输出的可视化引文分析系统。HistCite的主要工作流程是对由SCI、SSCI或A&HCI计算机检索中得到的含有全部的引文信息的检索结果所储存成的文件进行处理,得到一系列表格来直观反映某一专题方面的文献之间的引用关系,并突出显现被引用频次较多的文献,最后把用户设定的被引用频次作为一个阈值,截取被引用频次在该阈值以上的文献,按年代顺序生成引文编年图,从引文编年图中可以直观地看到那些重要的文献及它们之间的引用关系。现在对它进行简要的介绍与评价[4]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈