首页 理论教育 范式可视化的实现方法

范式可视化的实现方法

时间:2022-03-04 理论教育 版权反馈
【摘要】:无论是运用共被引分析法还是共词分析法来探讨某一学科的范式,都不能实现范式的可视化。要实现范式的可视化,必须借助多元统计分析方法及其软件,利用现代统计软件图形显示功能,将分析结果直观形象地显现出来,从而达到范式可视化的效果。用于分析研究结构和发现学科范式的多元统计方法通常有因子分析、聚类分析、多维尺度分析三种,这三种分析方法是共词分析的核心内容。来表示对某一事件的态度。

1.3.3 范式可视化的实现方法

无论是运用共被引分析法还是共词分析法来探讨某一学科的范式,都不能实现范式的可视化。要实现范式的可视化,必须借助多元统计分析方法及其软件,利用现代统计软件图形显示功能,将分析结果直观形象地显现出来,从而达到范式可视化的效果。

1.多元统计方法类型

用于分析研究结构和发现学科范式的多元统计方法通常有因子分析、聚类分析、多维尺度分析三种,这三种分析方法是共词分析的核心内容。

因子分析(factor analysis):因子分析的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据相关性大小将研究对象的变量分组,使得同组内的变量之间相关性较高,而不同组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子,这样用较少的几个公共因子就可以反映原始资料的大部分信息。利用因子分析法,可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而达到客观地分类的目的。

聚类分析(cluster analysis):聚类分析是研究“物以类聚”的一种方法,它根据事物本身的特性研究个体的分类。原理是同一类个体有较大的相似性,不同的个体却差异很大;基本的思想是认为研究的变量之间存在着程度不同的相似性(亲疏关系)。于是根据一批研究对象的多个变量指标,具体找出一些能够度量这些变量指标之间相似程度的统计量,以这些统计量为划分依据,把一些相似程度较高的变量聚合为一类,把另外一些彼此之间相似程度较高的变量聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的变量都聚合完毕,把不同的类型一一分出来,形成一个由小到大的分类系统。最后再将整个分类系统画成一张谱系图,用它将所有的变量间的亲疏关系表示出来。

多维尺度分析(muti-dimention analysis):多维尺度分析试图通过测定事物或观测量之间的距离来发现数据结构,其过程是通过指定观测量到概念空间(通常是二维或三维空间)的一个特定位置,使得空间中距离越近越好。多维尺度分析结果中,被分析的对象以点状分布,每个点的位置显示了分析对象之间的相似性,有高度相似性的对象聚集在一起,形成一个类别,越在中间的对象越处于核心地位。通过多维尺度分析,某研究领域、思想流派或学术共同体在学科里的位置就比较容易地判断出来。

此外,当前国外研究者还在作者共被引(ACA)的方法中,引入了潜在语义标引(Latent Semantic Indexing)和网络寻址定位(Pathfinder Network Scaling,PFNETs)的思想,开发了PFNETs和AuthorLink软件,为ACA的运用添上了翅膀(61)

2.多元统计方法对数据的要求

多元统计方法是建立在不同的数学模型和假设模型适用条件的基础上的,而不同的统计方法对数据类型的要求和数据分析的假设条件不同。反过来,也就是说,不同的数据类型和数据分布状态,采用的统计方法就有可能不同。因此,在选用哪种统计方法进行统计分析之前,需要首先检验和判断所统计的数据类型和分布状态,数据结构和分布特征必须对应合适的统计方法才能得出正确的分析结果,否则将带来错误的分析结果。

数据类型:在对统计数据分类之前,应了解统计数据的计量尺度,计量尺度标定数据类型。统计数据是对客观现象计量的结果,按照对事物计量的精确程度,可将所采用的计量尺度从低级到高级分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

①定类尺度:定类尺度(列名尺度)是按照事物的某种属性对其进行平行的分类或分组。例如,人口的性别(男、女),企业的所有制性质(国有、集体、私营)等。

定类尺度的特点是它只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,所以各类地位相同,顺序可以任意改变,其计量结果只能计算每一类别中各元素出现的频次。

②定序尺度:定序尺度(顺序尺度)是对事物之间等级或顺序差别的一种测度。例如,产品等级(一等品、二等品等等),毕业论文评价(优、良、中、及格、不及格)等。

定序尺度的特点是它不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序);但是由于该尺度值是测度类别之间的顺序,无法测出类别之间的准确差值,所以其计量结果只能排序,不能进行算术运算。

③定距尺度:定距尺度(间隔尺度)是对事物类别或次序之间间距的测度。例如,100分制考试成绩;摄氏温度对不同地区温度的测量、公制的距离、重量等。

定距尺度的特点是它不仅能将事物区分为不同类型并进行排序,而且可以准确指出类别之间的差距是多少;另外定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。

④定比尺度:定比尺度(比率尺度)是能够测算两个测度值之间比值的一种计量尺度。例如,职工月收入、企业产值等。

定比尺度的特点:第一是它与定距尺度属于同一层次,计量结果也表现为数值;第二它除了具有其他三种计量尺度的全部特点外,还可以计算两个测度值之间的比值;第三它与定距尺度的差别在于它有一个固定的“零”点,而定距尺度则没有固定的“零”点,因此它可以进行加、减、乘、除运算,而定距尺度只可进行加减运算。

在这四种计量尺度之间,高层次的计量尺度可以计算低层次计量尺度能够计量的事物,反之则不行;也可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果,但不能反过来。

根据统计数据的计量尺度不同,可将统计数据分为四种:由定类尺度决定的分类数据、由定序尺度决定的有序数据、由定距尺度决定的间隔数据、由定比尺度决定的比例数据。这四种数据类型在统计分析中又常被归为两大类:

(1)定性数据

定性数据说明的是事物的品质,不能用数量表示。分类数据属于定性数据,定性数据又称分类(名义)数据或分类标志。例如,调查人群有工人、教师、商店服务人员和公司老板,我们用数字1、2、3、4分别表示这4个人群,这里的数字称为分类数据,它们之间没有大小先后之分,仅仅运来表示不同的职业。

(2)定量数据

定量数据说明的是事物的数量特征,能够用数值表示。有序数据、间隔数据、比例数据属于定量数据。

有序数据:有序数据之间有大小之分,但没有大多少的概念。例如,可以把人们对某一事件的态度进行量化,用1,2,…来表示对某一事件的态度。

间隔数据:间隔数据是有序数据,它们之间的差是有意义的。例如,温度是一个典型的间隔数据,0℃不表示没有热量,40℃和30℃的温差在数量上等于80℃和70℃之间的温差,但它们代表的热量是不一样的。

比例数据:比例数据是测量的最高水平数据,这类数据有一个起点,记为0。例如,距离和时间,0是有意义的,可以看做距离和时间的起点,两倍的距离和两倍的时间也是有意义的。

在统计分析中,定量数据常常可以进一步分为:

离散数据:取有限个可以数得清的数据。

连续数据:取值无限往往用一个区间或一条直线上的数值来表示的数据。

离散数据和连续数据在统计上有本质区别,在统计分析软件中,这两类数据的统计分析选择方法有本质的差别。

数据分布特征:数据分布就是随机变量取值及其取值概率的全体,研究数据分布特征就是研究随机变量取哪些值以及取这些值的概率。数据分布根据随机变量的取值分为离散型和非离散型两大类。离散型随机变量的取值可以一一列举出来,它可以仅取有限个值,也可以取无限个可列值。常见的离散型随机变量的分布主要由均匀分布(Classical Type)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)、超几何分布(Hypergeometric Distribution);在非离散型随机变量中,最重要的是连续型随机变量,其取值范围是某一实数域。常见的连续型随机变量的分布有正态分布(Normal Distribution)、指数分布(Index Distribution)。

许多统计分析方法均对数据的分布有一定的要求,例如许多分析方法要求样本来自正态分布总体。从试验或实际测量得来的数据是否符合正态分布规律,决定了它们是否可以选用只对正态分布数据适用的分析方法。因此选取哪种分析方法才可以得出较为正确的结论,还需要对数据的总体分布特征加以判别和检验。

对统计数据分布特征的判断和推测建立在统计假设的基础上,其原理是先假设数据的分布符合某种函数形式,然后用取样得来的数据信息来拟合这种函数模型,用概率表示拟合的程度。该思路首先假设H0为真,考虑在H0成立的条件下观测到的样本信息出现的概率。如果这个概率很小,说明一个小概率事件在一次试验中发生了。而小概率原理认为,概率很小的事件在一次试验中几乎是不可能发生的,也就是说如果小概率事件在一次试验中发生了,说明事先的假设H0为真是不正确的,因此拒绝H0接受H1;否则不能拒绝H0。这里,H0表示原假设,H1表示原假设的对立假设。

假设检验分为两类:

(1)参数检验:在已知总体分布的具体函数形式的前提下,只是其中若干个参数未知,则称这种检验问题为参数检验问题。

(2)非参数检验:在总体分布不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。

同参数检验相比,非参数检验的假定前提比参数性假设检验的方法少得多,也容易满足,适用于计量信息较弱的资料且计算方法也简单易行。

假设检验分5个步骤完成:①提出原假设和替换假设;②确定适当的检验H0的统计量;③规定显著性水平a;④计算检验统计量的值;⑤作出统计决策。

三种分析方法对数据的要求:三种分析方法对数据的要求各不相同,其中因子分析要求参与的分析变量必须是等间隔测度的或是比率的数值型变量,分类变量不适合作因子分析,那些明显可以做皮尔逊相关系数计算的数据才适合进行因子分析,观测量应该彼此独立,一般来说,观测量数应该为变量数的5倍以上。对数据的分布要求是正态分布。多维尺度分析则要求:如果数据为不相似性数据,它们必须为数值型数据或是使用相同计量单位的数据。如果数据为多元变量,数据可以是等间隔数据、二分数据或者为计数数据。多维尺度对数据的分布假设没有严格要求。聚类分析对数据和数据分布的要求较为复杂。在SPSS软件中,聚类分析的方法分为快速聚类和分层聚类两种,一般的研究使用分层聚类的方法较多,而在分层聚类中,数据类型有三种:等间隔数据(Interval)、计数数据(Counts)、二值变量数据(Binary),不同的数据类型对应有不同的分析测度方法和假设前提,因此需要在具体运用过程中具体分析。

综上所述,在运用多元分析方法之前,首先要对数据进行类型和分布的判定分析,以确定合适的分析方法。

3.多元统计分析方法的比较

三种分析方法在分析某学科研究结构和范式的运用中各有利弊。首先,因子分析是用最少的因子尽可能多地表达原资料的信息,因子数的确定是根据变量间的相关性,尽管分出的因子数没有穷尽所有变量指标,但它却是最主要的因子,这种确定因子的方法客观性较强,而且可以根据因子的分值发现那些跨学科领域起桥梁作用的变量,比如刘林青在运用该方法分析战略管理领域的知识结构时,就发现了在战略管理领域不同科学共同体中起桥梁作用的作者与作品(62),因子分析的这一特色是聚类分析和多维尺度分析方法所不具备的。但因子分析对数据的要求却比较苛刻。

同因子分析相比,聚类分析是首先将各个变量各看成一类,先把距离最近的两类合并,然后重新计算类与类之间的距离,再把距离最近的两类合并,每一步减少一类,一直持续到所有的变量归为一类为止。在这里,距离的含义是广义的,距离的远近表示的是变量间的相似或不相似程度。不难发现,聚类分析穷尽了所有变量的类属关系,但其最大的局限在于面对聚类谱系图,难以确定最佳的分类数。较为理想的解决办法是参考因子分析所确定的因子个数来寻找聚类分析的分类点。

多维尺度分析法由于把所有的变量的位置都做了确定,因此同前两种方法相比,其显示结果更加直观和形象,并且对数据信息的要求较弱,是简便易行的方法,但是确定各类别的边界和数目却较困难,比较可行的做法是借助因子分析和聚类分析的结果。

通过上述三种多元分析方法的对比可以看出三种分析方法互相配合和映证,是分析某学科研究结构和范式较为理想、可行的做法。对于范式已经形成的成熟学科,三种分析方法在对结果相互佐证和映证的分析中,得出的结论基本一致,比如刘林清在分析战略管理领域的知识结构时,运用三种方法的分析结果是基本一致的。但是,如果一个学科的范式还没有形成或者正在形成之中,则运用三种分析方法分析的结果则可能会有一定的出入。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈