首页 百科知识 评价聚类算法好坏从哪些方面

评价聚类算法好坏从哪些方面

时间:2022-11-01 百科知识 版权反馈
【摘要】:指定初始聚类中心且不使用使用运行均值选项将避免与个案顺序相关的问题。它表示初始聚类中心之间的最小距离的比例,因此必须大于 0 且小于等于 1。初始聚类中心用于第一轮分类,然后再更新。F 检验只是描述性的,不应解释生成的概率。还显示最终聚类中心之间的欧氏距离。为了分析M006井不同深度下重矿物的亲属关系,需要进行聚类分析。本次以M006井重矿物的聚类分析分析为例,来详细介绍Q性层次聚类分析的应用。

3.1.5.1 聚类分析界面介绍

IBM SPSS Statics20.0提供了聚类分析选项卡,从菜单中选择:分析 > 分类 > 系统聚类。如图3-1,有两步聚类,k-均值聚类和系统聚类。

图3-1 IBM SPSS Statics20.0的聚类分析选项卡示意图

读入数据,点击分析菜单栏下的分类命令,点击系统聚类按钮,进入系统聚类分析对话框,如图3-2所示。

图3-2 IBM SPSS Statics20.0的聚类分析对话框示意图

在“系统聚类分析”对话框中,选择好变量和标注个案的变量,单击统计量按钮,弹出统计量对话框,如图3-3所示:

图3-3 IBM SPSS Statics20.0的聚类分析统计量对话框示意图

【合并进程表】显示在每个阶段合并的个案或聚类、所合并的个案或聚类之间的距离以及个案(或变量)与聚类相联结时所在的最后一个聚类级别。

相似性矩阵】给出各项之间的距离或相似性。

【聚类成员】显示在合并聚类的一个或多个阶段中,每个个案被分配所属的聚类。可用的选项有单个解和一定范围的解。

在“系统聚类分析”对话框中,单击绘制按钮,弹出绘制图对话框,如图3-4所示:

图3-4 IBM SPSS Statics20.0的聚类分析图对话框示意图

【树状图】显示树状图,树状图可用于评估所形成的聚类的凝聚性,并且可以提供关于要保留的适当聚类数目的信息。

【冰柱】显示冰柱图,包括所有聚类或指定范围内的聚类。冰柱图显示关于在分析的每次迭代时如何将个案合并到聚类的信息。“方向”允许您选择垂直或水平图。

在“系统聚类分析”对话框中,单击方法按钮,弹出方法对话框,如图3-5所示:

图3-5 IBM SPSS Statics20.0的聚类分析方法对话框示意图

【聚类方法】可用的选项有组间连接、组内连接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法和 Ward 法。

【度量】允许您指定聚类中使用的距离或相似性测量。选择数据类型以及合适的距离或相似性测量:

【区间】可用的选项有 Euclidean 距离、平方 Euclidean 距离、余弦、Pearson 相关性、Chebychev、块、Minkowski 及定制。

【计数】可用的选项有卡方测量和 phi 平方测量。

【二分类】可用的选项有 Euclidean 距离、平方 Euclidean 距离、尺度差分、模式差分、方差、离差、形状、简单匹配、Phi 4 点相关性、lambda、Anderberg 的 D、骰子、Hamann、Jaccard、Kulczynski 1、Kulczynski 2、Lance 和 Williams、Ochiai、Rogers 和Tanimoto、Russel 和 Rao、Sokal 和 Sneath 1、Sokal 和 Sneath 2、Sokal 和 Sneath 3、Sokal 和 Sneath 4、Sokal 和 Sneath 5、Yule 的 Y 以及 Yule 的 Q。

【转换值】允许您在计算近似值之前为个案或值进行数据值标准化(对二分类数据不可用)。可用的标准化方法有 z 得分、范围 -1 至 1、范围 0 至 1、1 的最大量级、1 的均值和使标准差为 1。

【转换度量】允许您转换距离测量所生成的值。在计算了距离测量之后应用这些转换。可用的选项有绝对值、更改符号和重新调整到 0–1 范围。

在“系统聚类分析”对话框中,单击保存按钮,弹出保存对话框,如图3-6所示:

图3-6 IBM SPSS Statics20.0的聚类分析保存对话框示意图

【聚类成员】允许您为单个解或一定范围的解保存聚类成员。然后可以在随后的分析中使用所保存的变量来探索各组之间的其他差别。

均值聚类分析界面介绍

IBM SPSS Statics20.0提供了聚类分析选项卡,从菜单中选择:分析 > 分类 > k-均值聚类。如图3-7,有两步聚类,k-均值聚类和系统聚类。

图3-7 IBM SPSS Statics20.0的k-均值聚类分析选项卡示意图

读入数据,点击分析菜单栏下的分类命令,点击k均值聚类按钮,进入k均值聚类分析对话框,如图3-8所示。

图3-8 IBM SPSS Statics20.0的聚类分析对话框示意图

【个案和初始聚类中心顺序】用于选择初始聚类中心的缺省算法对个案顺序不是保持不变的。“迭代”对话框中的使用运行均值选项使结果解与个案顺序潜在相关,而不管初始聚类中心是如何选择的。如果您使用这些方法种的任一种,则可能要使用以不同的随机顺序排序的个案获取多个不同的解,以验证给出解的稳定性。指定初始聚类中心且不使用使用运行均值选项将避免与个案顺序相关的问题。然而,如果从个案到聚类中心有固定距离,则初始聚类中心的排序方式可能会影响解。要获得给定解的稳定性,可以将分析的结果与初始中心值的不同排列相比较。

在“k均值聚类分析”对话框中,选择好变量和个案标记依据,填好聚类数,单击迭代按钮,弹出迭代对话框,如图3-9所示:

图3-9 IBM SPSS Statics20.0的k-均值聚类分析迭代对话框示意图

【最大迭代次数】限制K均值算法中的迭代次数。即使尚未满足收敛准则,达到迭代次数之后迭代也会停止。此数字必须在1到 999 之间。要再次使用版本 5.0 以前的 Quick Cluster 命令使用的算法,应将最大迭代次数设置为 1。

【收敛性标准】确定迭代何时停止。它表示初始聚类中心之间的最小距离的比例,因此必须大于 0 且小于等于 1。例如,如果准则等于 0.02,则当完整的迭代无法将任何聚类中心移动任意初始聚类中心之间最小距离的 2% 时,迭代停止。

【使用运行均值】允许您请求在分配了每个个案之后更新聚类中心。如果不选择此选项,则会在分配了所有个案之后计算新的聚类中心。

在“k-均值聚类分析”对话框中,单击保存按钮,弹出保存对话框,如图3-10所示:

图3-10 IBM SPSS Statics20.0的k-均值聚类分析保存对话框示意图

【聚类成员】创建指示每个个案最终聚类成员的新变量。新变量的值范围是从 1 到聚类数。

【与聚类中心的距离】创建指示每个个案与其分类中心之间的欧式距离的新变量。

在“k-均值聚类分析”对话框中,单击选项按钮,弹出选项对话框,如图3-11所示:

图3-11 IBM SPSS Statics20.0的k-均值聚类分析选项对话框示意图

【统计量】您可以选择以下统计量:初始聚类中心、ANOVA 表以及每个个案的聚类信息。

• 初始聚类中心:每个聚类的变量均值的第一个估计值。默认情况下,从数据中选择与聚类数相等的分布良好的多个个案。初始聚类中心用于第一轮分类,然后再更新。

• ANOVA 表:显示方差分析表,该表包含每个聚类变量的一元 F 检验。F 检验只是描述性的,不应解释生成的概率。如果所有个案均分配到单独一个聚类,则 ANOVA 表不显示。

• 每个个案的聚类信息:显示每个个案的最终聚类分配,以及该个案和用来对个案分类的聚类中心之间的 Euclidean 距离。还显示最终聚类中心之间的欧氏距离。

【缺失值】可用的选项为按列表排除个案或按对排除个案。

• 按列表排除个案:从分析中排除含任意聚类变量缺失值的个案。

• 按对排除个案:根据从所有具有非缺失值的变量计算得到的距离将个案分配到聚类。

3.1.5.2 简单例子

本次以重矿物的聚类分析为例,来详细介绍层次聚类分析的应用。

为了分析M006井不同深度下重矿物的亲属关系,需要进行聚类分析。本次以M006井重矿物的聚类分析分析为例,来详细介绍Q性层次聚类分析的应用。

聚类分析的具体操作如下。

首先导入M006井重矿物数据,如图3-12。

图3-12 输入到IBM Statics 20.0的M006井重矿物数据

打开聚类分析界面,具体如下:选择【分析(A)】>【分类(F)】>【系统聚类(H)】(图3-13)。

图3-13 聚类分析界面打开方式

点击【系统聚类(H)】,打开了聚类分析界面(图3-14)。【变量:】中输入重矿物数据;【标注个案(C)】中输入样品深度。

图3-14 聚类分析界面

在【绘制(T)】选项卡中,选择【树状图(D)】,点击继续(图3-15)。

图3-15 聚类分析的【绘制(T)】选项卡界面

在聚类分析界面点击确定(图3-14),生成了聚类分析结果(图3-16)。

图3-16 聚类分析结果(树状图)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈