首页 百科知识 非层次聚类分析

非层次聚类分析

时间:2022-11-01 百科知识 版权反馈
【摘要】:非层次聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。和层次聚类分析一致,非层次聚类分析也以距离为样本间亲疏程度的标志。SPSS会根据样本数据的实际情况,选择k个由代表性的样本数据作为初始类中心。计算所有样本数据点到k个类中心点的欧氏距离,SPSS按照距k个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。

非层次聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类[3,4]。一般来说,具体的类别的个数需要在分析前确定,整提分析过程使用迭代的方式进行,首先起步于一个初始的分类,然后通过不断迭代把数据在不同的类别之间移动,直到最后达到一定的标准为止。其优点是整个计算过程不需要嵌套,所以计算速度要快很多。

和层次聚类分析一致,非层次聚类分析也以距离为样本间亲疏程度的标志。但两者的不同在于:层次聚类可以对不同的聚类类数产生一系列的聚类解,而非层次聚类只能产生固定类数的聚类解,类数需要用户事先指定。其具体计算过程如下,首先需要用户指定聚类成多少类(比如k类)。然后SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个由代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。计算所有样本数据点到k个类中心点的欧氏距离,SPSS按照距k个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。其中欧氏距离(Euclidean Distance)的计算公式为

其中,k表示每个样本中有k个变量; 表示第一个样本在第i个变量上的取值;表示第二个样本在第i个变量上的取值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈