首页 理论教育 距离矩阵与聚类分析

距离矩阵与聚类分析

时间:2022-03-04 理论教育 版权反馈
【摘要】:本研究在聚类分析的过程中,由于共词频次矩阵中的数据为计数数据,因此只能测度数据间的不相似性,得出相应的相异矩阵,用相异矩阵参与聚类分析。在SPSS13.0中完成距离分析操作后,获得距离分析后的相异矩阵分析表,经格式转换后得到一个相异矩阵,如表5-10所示。如何确定最佳分类数是聚类分析尚未完全解决的问题之一,这里主要参考因子分析所确定的因子个数来寻找分类点。

5.4.2 距离矩阵与聚类分析

因子分析是基于数据相关性的分类,聚类分析是基于数据相似性或不相似性的分类,数据间相似性或不相似性的测度用距离和相似系数来体现,参与聚类分析的数据是用距离测度还是用相似系数测度,决定于数据类型。本研究在聚类分析的过程中,由于共词频次矩阵中的数据为计数数据(离散数据),因此只能测度数据间的不相似性,得出相应的相异矩阵,用相异矩阵参与聚类分析。

1.相异矩阵抽取

在SPSS13.0中完成距离分析操作后,获得距离分析后的相异矩阵分析表,经格式转换后得到一个相异矩阵,如表5-10所示。

表5-10是一个经过距离分析测度后得到的不相似矩阵,也称距离相异矩阵,矩阵中数据表明两两关键词之间的相似程度,数字越大,不相似性越大,相似性越小,反之亦然。

2.聚类分析结果描述

聚类分析中系统聚类法(hierarchical clustering method)是使用最多的一种聚类方法,我们采用此聚类方法对上面得到的相异矩阵进行聚类分析,该分析在SPSS13.0中完成。其中,在统计分析statistics菜单中,参考因子散点图所显示的分类结果,选择聚为6~10类的类成员分配表,作为要求输出的统计量,进行比较分析;在统计图标plots菜单中,选取树型图Dendrogram作为要求输出的统计图标;在聚类方法Method菜单中选取适合的聚类方法(cluster method)、距离测度方法(measure)、标准化方法(transform values)。完成聚类分析,得到分为6~10类的关键词类别分属表(见表5-11)和聚类分析结果树状图(见图5-2)。

如何确定最佳分类数是聚类分析尚未完全解决的问题之一,这里主要参考因子分析所确定的因子个数来寻找分类点。由于因子分析的散点图给出了分类的一个区间,因此将聚类结果分为6~10个,通过比较确定合理的分类。表5-12给出了6~10个类别的聚类结果。

表5-10 英文关键词距离相异矩阵(部分)

img56

表5-11 类别分属聚类表(Cluster Membership)

img57

续表

img58

比较发现,在6~10类的取值期间,有4类结果一直是稳定的,但其中因子分析结果为“组织知识管理”类和“企业知识管理”类中的关键词,当选择大类数时,它们会拆分出来,当选择小类数时,它们又合并起来。表5-12显示,以聚为6类的结果为开端,其中的第4类关键词通过三次拆分,其中的第五类关键词通过一次拆分可将聚类结果扩展至10类。从关键词的这种分布变化再次看出,知识管理的研究中,组织知识管理和企业知识管理的研究内容具有渗透性、融合性与部分重合点。

img59

图5-2 聚类结果树状图

Dendrogram using Ward Method Rescaled Distance Cluster Combine

表5-12 6~10个类别的聚类结果

img60

续表

img61

续表

img62

为了与因子分析的结果更好的吻合,这里选择9类聚类结果,其中每类中的关键词分布为:

第一类包括关键词:organization learning(组织学习),knowledge(知识),competitive advantage(竞争优势),strategic management(战略管理),strategic planning(战略规划),intellectual property(知识产权),organizational structure(组织结构),management style(管理类型),information management(信息管理)。该类中有7个关键词落在了因子7中,可见该类与因子7具有高度同一性,由于因子7中的关键词载荷在因子分析中不符合命名原则,这里需要对因子7重新命名,根据聚类结果关键词的特征,该类命名为组织知识管理行为。

第二类包括关键词:innovations(创新),new product/product development(新产品与产品开发),strategy(战略),performance(绩效),KMS(知识管理系统),technology(技术),intranets(内部网)。与因子分析结果比较,该类关键词全部落在因子1(创新绩效)中,说明创新绩效是知识管理领域的研究核心。

第三类包括关键词:corporate culture(企业文化),management(管理),learning(学习),decision making(决策),information(信息),internet(互联网),knowledge worker(知识工人)。该类中有4个关键词落在因子6(信息资源管)中,但因子6中载荷系数最高的关键词“信息资源管理”却不在这四个关键词中,而且因子4中载荷系数为负的关键词corporate culture、learning以及因子分析中丢失的关键词decision making新加入到该类别中,该类需要重新命名,根据该类中的关键词特征,它们更趋向企业知识管理行为。

第四类包括关键词:organizational behavior(组织行为),Organizational development(组织发展)、Quality/total quality(质量/全面质量)、Organizational change(组织变革)、Management theory(管理理论)、Theory(理论)、advantage(优势)、project management(项目管理)、IT(信息技术),information sharing(信息共享)。

该类与因子5(企业知识管理理论)有6个关键词相同,且这6个关键词中包含了因子5中载荷系数最高的关键词management theory。同时该类又吸纳了因子10中的三个负载荷关键词information sharing,organizational development,project management和因子10(人力资源管理)中的关键词organizational change。这些都是与企业知识管理理论相关的关键词。

第五类包括关键词:intellectual capital(智力资本),tacit knowledge(隐性知识),benchmarks(标杆管理/最佳实践),models(模型),systems(系统),networks(网络),organizational theory(组织理论),communication(交流)。

这类与因子2有5个关键词重合,是从因子2拆分出的一类,并吸纳了因子10中具有负载荷的关键词benchmarks。该类中关键词intellectual capital在因子2中的载荷系数超过0.7。根据这类关键词特点,我们仍使用因子分析中的命名:组织知识管理理论。

第六类包括关键词:performance evaluation(绩效评估),HRM(人力资源管理),training(培训),learning organization(学习型组织)。这类与因子9(人力资源管理)高度一致。

第七类包括关键词:IRM(信息资源管理)、ISM(信息系统管理)、KBS(以知识为基础的系统)。该类关键词是重新组合的一类关键词,它们表达的是信息资源管理的内容。

第八类包括关键词:information systems(信息系统),electronic commerce(电子商务),system development(系统开发),DB(数据库/数据仓库),ontology(本体),system design(系统设计)。该类与因子3(电子商务系统)高度一致,但另外吸纳了因子4中具有负载荷的关键词DB和ontology。

第九类包括关键词:DSS(决策支持系统),expert systems(专家系统),AI(人工智能),software(软件)。该类与因子8(人工智能系统)高度一致。

综上所述,通过聚类分析的关键词分布,参考因子分析的结果,进一步确定了国外知识管理研究的9种研究结构,如表5-13所示。

表5-13 国外知识管理的9种研究结构

img63

图5-2以树状图的形式显示了国外知识管理研究结构的聚类结果。对聚类结果的命名主要参照因子分析结果。

3.聚类分析结果的关键词分布特点

将这9类聚类结果的关键词与因子分析结果比较发现,关键词的类别分布有略微的不同,但整体上具有高度一致性。下面是详细比较结果:

①聚类结果中的第2类与因子分析的第1类(创新绩效),其中的关键词完全重合,说明这是国外知识管理中比较稳定的一个领域。

②聚类结果中的第1类、第6类、第8类、第9类分别与因子分析的因子7、因子9、因子3、因子8中的关键词高度一致,而且这些因子中载荷系数最高的关键词也都分别分布在了相应的聚类类别中。比如,聚类1中的9个关键词,有7个关键词落在了因子7中;聚类6中的4个关键词,有3个落在了因子9中;聚类8中的6个关键词,有4个落在了因子3中;聚类9的4个关键词全部落在因子8中。这说明这些类别在国外知识管理的研究中也都基本稳定。

③聚类结果的第4类、第5类分别与因子分析的因子5、因子2相对应,但这两类是内容综合、外延交叉和伸缩性较大的一类,表现在其关键词的分布变化上。比如,聚类结果的第4类和第5类瓜分了因子10中的关键词,因子10中表示负相关的三个关键词information sharing(信息共享)、organizational development(组织发展)、project management(项目管理)进入管理理论类中,而关键词Benchmarks(标杆/最佳实践)则进入到了组织理论类中,而且聚类出来的组织理论类还从因子8中吸收了关键词systems(系统)和关键词networks(网络)。

④聚类结果与因子分析结果中,分布变化最大的关键词是IRM,它从因子6中单独剥离出来,在聚类7中重新组合新的关键词,而且因子6与聚类7的关键词内容差异很大,这说明IRM的研究内容还不稳定,观点分歧比较大。

⑤在聚类分析与因子分析中,分布发生变化的关键词有三类:第一类是在因子分析中,因子载荷为负值的关键词,在参与聚类分析时位置全部发生改变。比如,因子4中载荷系数为负的关键词ontology(本体)和DB(数据库/数据仓库)在聚类分析中被分配到了第8类中,KBS(知识系统)则被分配到了第7类中。因子7中载荷系数为负的关键词communication(交流)在聚类分析中被分配到了第5类。因子10中载荷系数为负的关键词information sharing(信息共享),organizational development(组织发展),project management(项目管理)在聚类分析中被共同分配到了第4类中;第二类是关键词本身技术属性和组织管理属性比较模糊、难以判定的关键词,在因子分析和聚类分析结果中的位置会改变。比如,关键词systems(系统)和networks(网络),在有些文献中的是技术方面的含义,在另外文献中又具有组织管理的属性,因此,这两个关键词在因子分析中分布在因子8中,在聚类分析中聚到了第5类中;第三类是因子分析中,载荷系数跨因子分布和由于载荷系数小于0.5而丢掉的关键词,在聚类分析中找到了确定的位置。

⑥从整体上看,具有技术属性关键词的类别分布比较稳定,而具有组织管理属性关键词的类别分布出现了波动,而且主要是在组织知识管理领域与企业知识管理领域发生交叉和重叠。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈