评价聚类算法好坏从哪些方面

时间：2022-11-01 百科知识版权反馈

【摘要】：指定初始聚类中心且不使用使用运行均值选项将避免与个案顺序相关的问题。它表示初始聚类中心之间的最小距离的比例，因此必须大于 0 且小于等于 1。初始聚类中心用于第一轮分类，然后再更新。F 检验只是描述性的，不应解释生成的概率。还显示最终聚类中心之间的欧氏距离。为了分析M006井不同深度下重矿物的亲属关系，需要进行聚类分析。本次以M006井重矿物的聚类分析分析为例，来详细介绍Q性层次聚类分析的应用。

3.1.5.1　聚类分析界面介绍

IBM SPSS Statics20.0提供了聚类分析选项卡，从菜单中选择：分析 > 分类 > 系统聚类。如图3-1，有两步聚类，k-均值聚类和系统聚类。

pagenumber_ebook=110,pagenumber_book=101

图3-1　IBM SPSS Statics20.0的聚类分析选项卡示意图

读入数据，点击分析菜单栏下的分类命令，点击系统聚类按钮，进入系统聚类分析对话框，如图3-2所示。

pagenumber_ebook=110,pagenumber_book=101

图3-2　IBM SPSS Statics20.0的聚类分析对话框示意图

在“系统聚类分析”对话框中，选择好变量和标注个案的变量，单击统计量按钮，弹出统计量对话框，如图3-3所示：

pagenumber_ebook=111,pagenumber_book=102

图3-3　IBM SPSS Statics20.0的聚类分析统计量对话框示意图

【合并进程表】显示在每个阶段合并的个案或聚类、所合并的个案或聚类之间的距离以及个案（或变量）与聚类相联结时所在的最后一个聚类级别。

【相似性矩阵】给出各项之间的距离或相似性。

【聚类成员】显示在合并聚类的一个或多个阶段中，每个个案被分配所属的聚类。可用的选项有单个解和一定范围的解。

在“系统聚类分析”对话框中，单击绘制按钮，弹出绘制图对话框，如图3-4所示：

pagenumber_ebook=111,pagenumber_book=102

图3-4　IBM SPSS Statics20.0的聚类分析图对话框示意图

【树状图】显示树状图，树状图可用于评估所形成的聚类的凝聚性，并且可以提供关于要保留的适当聚类数目的信息。

【冰柱】显示冰柱图，包括所有聚类或指定范围内的聚类。冰柱图显示关于在分析的每次迭代时如何将个案合并到聚类的信息。“方向”允许您选择垂直或水平图。

在“系统聚类分析”对话框中，单击方法按钮，弹出方法对话框，如图3-5所示：

pagenumber_ebook=112,pagenumber_book=103

图3-5　IBM SPSS Statics20.0的聚类分析方法对话框示意图

【聚类方法】可用的选项有组间连接、组内连接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法和 Ward 法。

【度量】允许您指定聚类中使用的距离或相似性测量。选择数据类型以及合适的距离或相似性测量：

【区间】可用的选项有 Euclidean 距离、平方 Euclidean 距离、余弦、Pearson 相关性、Chebychev、块、Minkowski 及定制。

【计数】可用的选项有卡方测量和 phi 平方测量。

【二分类】可用的选项有 Euclidean 距离、平方 Euclidean 距离、尺度差分、模式差分、方差、离差、形状、简单匹配、Phi 4 点相关性、lambda、Anderberg 的 D、骰子、Hamann、Jaccard、Kulczynski 1、Kulczynski 2、Lance 和 Williams、Ochiai、Rogers 和Tanimoto、Russel 和 Rao、Sokal 和 Sneath 1、Sokal 和 Sneath 2、Sokal 和 Sneath 3、Sokal 和 Sneath 4、Sokal 和 Sneath 5、Yule 的 Y 以及 Yule 的 Q。

【转换值】允许您在计算近似值之前为个案或值进行数据值标准化（对二分类数据不可用）。可用的标准化方法有 z 得分、范围 -1 至 1、范围 0 至 1、1 的最大量级、1 的均值和使标准差为 1。

【转换度量】允许您转换距离测量所生成的值。在计算了距离测量之后应用这些转换。可用的选项有绝对值、更改符号和重新调整到 0–1 范围。

在“系统聚类分析”对话框中，单击保存按钮，弹出保存对话框，如图3-6所示：

pagenumber_ebook=113,pagenumber_book=104

图3-6　IBM SPSS Statics20.0的聚类分析保存对话框示意图

【聚类成员】允许您为单个解或一定范围的解保存聚类成员。然后可以在随后的分析中使用所保存的变量来探索各组之间的其他差别。

均值聚类分析界面介绍

IBM SPSS Statics20.0提供了聚类分析选项卡，从菜单中选择：分析 > 分类 > k-均值聚类。如图3-7，有两步聚类，k-均值聚类和系统聚类。

pagenumber_ebook=113,pagenumber_book=104

图3-7　IBM SPSS Statics20.0的k-均值聚类分析选项卡示意图

读入数据，点击分析菜单栏下的分类命令，点击k均值聚类按钮，进入k均值聚类分析对话框，如图3-8所示。

pagenumber_ebook=114,pagenumber_book=105

图3-8　IBM SPSS Statics20.0的聚类分析对话框示意图

【个案和初始聚类中心顺序】用于选择初始聚类中心的缺省算法对个案顺序不是保持不变的。“迭代”对话框中的使用运行均值选项使结果解与个案顺序潜在相关，而不管初始聚类中心是如何选择的。如果您使用这些方法种的任一种，则可能要使用以不同的随机顺序排序的个案获取多个不同的解，以验证给出解的稳定性。指定初始聚类中心且不使用使用运行均值选项将避免与个案顺序相关的问题。然而，如果从个案到聚类中心有固定距离，则初始聚类中心的排序方式可能会影响解。要获得给定解的稳定性，可以将分析的结果与初始中心值的不同排列相比较。

在“k均值聚类分析”对话框中，选择好变量和个案标记依据，填好聚类数，单击迭代按钮，弹出迭代对话框，如图3-9所示：

pagenumber_ebook=114,pagenumber_book=105