首页 理论教育 科学知识图谱的概念与方法

科学知识图谱的概念与方法

时间:2022-09-19 理论教育 版权反馈
【摘要】:用传统方法来绘制不断发展的科学知识的“全貌图”,犹如盲人摸象一般。科学知识图谱的出现,使绘制一幅科学知识“全貌图”的理想得以实现。[3]具体而言,科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,是以科学知识为计量研究对象,属于科学计量学范畴。[5]大致而言,科学知识图谱的绘制包括三个步骤。七是可视化,可视化技术最后被用来呈现科学知识图谱,即呈现应用不同的分析方法得到的结果。

传统的研究一个学科领域整体发展状况的方法近乎残忍:学者们必须查阅该领域几乎所有的文献。很显然,这种方法费时费力,缺乏重复性,并且还掺杂着学者的主观判断。传统方法在面对文献总量迅速增长的现状以及应对跨学科研究的问题时,都显得捉襟见肘、难以为继。用传统方法来绘制不断发展的科学知识的“全貌图”,犹如盲人摸象一般。毕竟,新的科学文献的不断涌现产生了一个持续变化的学科结构。科学知识图谱(mapping knowledge domain)的出现,使绘制一幅科学知识“全貌图”的理想得以实现。[1]科学知识图谱是一个以科学学为基础,涉及应用数学信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。[2]

科学图谱(map of science)是对科学领域、学科、专业、个人发表论文以及作者之间的相互关系的一种空间表征(spatial representation),呈现出它们的自然邻近程度(physical proximity)和相对位置关系(relative location)。[3]具体而言,科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,是以科学知识为计量研究对象,属于科学计量学范畴。当它在以数学方程式表达科学发展规律的基础上,进而以曲线形式将科学发展规律绘制成二维图形时,便成为最初的知识图谱。[4]按照这个定义,用定量统计方法发现科学知识指数增长规律的科学计量学奠基人普赖斯(Derek John de Solla Price),是科学知识图谱的早期开拓者。随着科学知识的爆炸式增长以及计量学的发展,描绘科学知识和科学活动规律的数学模型,逐渐从二维空间模型发展到三维空间模型,科学知识图谱也相应地从简单的曲线图发展为较复杂的三维立体图。[5]

大致而言,科学知识图谱的绘制包括三个步骤。以绘制文献图谱为例,第一步是选择文献的参考文献、引用文献,或者文献标题或摘要中出现的关键词等要素,作为比较这些文献的基础;第二步是以所选取的要素为基础,利用皮尔森相关系数(the Pearson correlation coefficient)、萨尔顿余弦指数(the Salton's cosine index)、雅卡尔指数(the Jaccard index)、包容指数(the inclusion index)或关联强度(the association strength)等测量方法来计算这些文献间的相似性;最后一步是利用诸如聚类分析(cluster analysis)、多维标度法(multidimensional scaling,MDS)这样的多变量分析(multivariate analyses)方法将相似性计算的结果进行可视化[6]

具体而言,科学知识图谱的绘制可以分为以下七个步骤:一是数据检索(data retrieval),ISI Web of Science、Scopus等多种文献数据库提取的数据以及专利、经费等数据都可以用来绘制图谱。二是预处理(data preprocessing),为了得到更高质量的图谱结果,需要删除重复的和错误的数据,或者将数据分为不同的时间区段,或者将数据简化以得到重要的数据,或者通过网络预处理(networks preprocessing)来去除那些独立的节点(所分析的要素)和不重要的节点间的连接。三是网络提取(network extraction),通过共词分析(co-word analysis)、共同作者分析(Co-author analysis)、文献耦合(bibliographic coupling)、共被引分析(co-citation analysis)等途径构建网络。四是标准化(normalization process),当体现要素间关系的网络构建后,通过计算网络中各要素间的相似性,来实现对数据的标准化转换。五是绘图(mapping),通过映射算法(mapping algorithm)对由各要素构成的网络进行绘图,主成分分析(principal component analysis)、多维标度法(MDS)、聚类算法(clustering algorithms)或探路者网络(pathfinder networks)等为代表的降维技术(dimensionality reduction techniques)在此步骤中将得到应用。六是分析(analysis),通过网络分析(network analysis)、时序分析(temporal analysis)、突发检测(burst detection)或地理空间分析(geospatial analysis)等不同分析方法从图谱中得到有价值的信息。七是可视化(visualization),可视化技术最后被用来呈现科学知识图谱,即呈现应用不同的分析方法得到的结果。[7]

科学知识图谱最大的优点就是利用可视化技术将知识和信息中令人注目的最前沿领域或学科制高点,以多维图像直观地展现出来,以期使专业或非专业研究人员可以高屋建瓴地快速地从宏观上把握学科进展及发展趋势、核心作者群以及学科研究热点等。[8]随着计算机科学的发展,一批专门用于绘制科学知识图谱的软件被开发出来,用于对大样本进行相似性分析并将分析结果转化为可视化图谱。一些代表性的软件有:Bibexcel、CiteSpace、CoPalRed、IN-SPIRE、Leydesdorff′s Software、Network Workbench Tool、Science of Science(Sci2)Tool、VantagePoint和VOSViewer等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈