首页 理论教育 系统聚类法实现过程

系统聚类法实现过程

时间:2022-02-12 理论教育 版权反馈
【摘要】:(3)Cluster栏选择聚类类型:选择Variables项要进行变量聚类,选择Cases项要进行观测量聚类.2.Method对话框如图7-5所示,用于确定聚类方法.在主对话框中,用鼠标单击“Method”按钮,展开Method分层聚类分析的方法选择对话框.在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法和对测度的转换方法.(1)聚类方法选择:用鼠标对准Clu

1.Hierachical Cluster Analysis主对话框如图7-2所示.

(1)Variable(s)栏:存放分析变量栏.

(2)Label Cases栏:存放标识变量.

(3)Cluster栏选择聚类类型:选择Variables项要进行变量聚类,选择Cases项要进行观测量聚类.

2.Method对话框如图7-5所示,用于确定聚类方法.在主对话框中,用鼠标单击“Method”按钮,展开Method分层聚类分析的方法选择对话框.在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法和对测度的转换方法.

(1)聚类方法选择:用鼠标对准Cluster Method框中的向下箭头按钮,单击鼠标键,展开方法菜单.表中列出可以选择的聚类方法.

●Between-groups linkage(类间平均链锁):合并两类的结果,使所有的两两项对之间的平均距离最小.项对的两个成员分别属于不同的类,该方法中使用的是各对之间的距离,既非最大距离也非最小距离.

●Within-groups linkage(类内平均链锁法):若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小.两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方.

●Nearest neighbor(最近邻居法):该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离.

●Furthest neighbor(最远邻居法):用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法.

●Centroid clustering(重心法):应与欧氏距离平方法一起使用,像计算所有各项均值之间的距离那样计算两类之间的距离,该距离随聚类的进行不断减小.

●Median clustering(中间距离法):应与欧氏距离平方法一起使用.

●Ward’s method(离差平方和法):应与欧氏距离平方法一起使用.

(2)对距离的测度方法选择:在Measure栏中指定的是用哪两点间的距离决定是否合并两类.距离的具体计算方法还根据参与距离的变量类型从以下3 种对话框选择其一,展开选择菜单后再进行具体方法的选择.这3个对话框分别对应于等间隔测度的变量(一般为连续变量)、计数变量(一般为离散变量)和二值变量.以下为3个对话框及其可选择的距离或不相似性测度方法:

●Interval参数框应用于等间隔测度的变量.单击矩形框右侧的向下箭头展开下拉菜单,在菜单中选择连续变量距离测度的方法,这些方法是:

Euclidean distance:Euclidean距离即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q 型聚类.

Squared Euclidean distance:Euclidean距离平方即两观察单位间的距离为其值差的平方和,该技术用于Q 型聚类.

Cosine:变量矢量的余弦,这是模型相似性的度量.

Pearson correlation:相关系数距离适用于R型聚类.

Chebychev距离:即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q 型聚类.

Block:City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q 型聚类.

Minkowski距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根,p由用户指定.

Customized距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r 次根,pr 由用户指定.

●Count参数框应用于计数变量(离散变量).单击参数框右侧的向下箭头,展开下列两种方法选择不相似性测度的方法:

Chi-Square measure选项:卡方测度.用卡方值测度不相似性.该测度是根据两个集的频数相等的卡方检验.测度产生的值是卡方值的平方根.这是系统默认的.对计数变量的不相似性测度方法是根据被计算的两个观测量或两个变量总频数计算其不相似性.期望值来自观测量或变量(x,y)的独立模型.

Phi-Square measure选项:两组频数之间的Φ2测度.该测度试图考虑减少样本量对实际度值的实际预测频率减少的影响.该测度把Φ2除以联合频数的平方根,使不相似性的卡方测度规范化.该测度值与被计算不相似性的两个观测量或两个变量的总频数无关.

●Binary参数框:应用于二值变量.可用单击Binary参数框右侧的向下箭头展开下拉菜单的方法选择距离或不相似性测度的方法.首先应该明确对二值变量,系统默认用1表示某特性出现(或发生),用0表示特性不出现(或不发生).

(3)Transform Values栏确定标准化的方法.单击Transform Values栏右侧向下的箭头按钮,展开标准化方法列表.只有等间隔测度的数据(选择了Interval)或计数数据(选择了Counts)才可以进行标准化.对数据进行标准化的可选择的方法有:

●None选项:不进行标准化是系统默认值.

●Z scores选项:把数值标准化到Z分数.标准化后变量均值为0,标准差为1.系统将每一个值减去正被标准化的变量或观测量的均值,再除以其标准差.如果标准差为0,则将所有值置为0.

●Range -1 to 1选项:把数值标准化到-1到+1范围内.选择该项,对每个值用正在被标准化的变量或观测量的值的范围去除.如果范围为0,所有值不变.

●Maximum magnitude选项:把数值标准化到最大值1 该方法是把正在标准化的变量或观测量的值用最大值去除如果最大值为0 则用最小值的绝对值除再加1.

●Range 0 to 1选项:把数值标准化到0到1的范围内,对正在被标准化的变量或观测量的值减去正在被标准化的变量或观测量的最小值,然后除以范围.如果范围是0,将所有变量值或观测量值设置为0.5.

●Mean of 1选项:把数值标准化到一个均值的范围内,对正在被标准化的变量或观测量的值除以正在被标准化的变量或观测量的值的均值.如果均值是0,对变量或观测量的所有值都加1,使其均值为1.

●Standard deviation of 1选项:把数值标准化到单位标准差.该方法对每个值除以正在被标准化的变量或观测量的标准差,如果标准差为0,则这些值保持不变.

(4)Transform Measure栏测度的转换方法选择栏.

●Absolute values复选项:把距离值取绝对值.当数值符号表示相关方向,且只对负相关关系感兴趣时,使用此方法进行变换.

●Change sign复选项:把相似性值变为不相似性值或相反.用求反的方法使距离顺序颠倒.

●Rescale to 0~1 range复选项:通过首先减去最小值然后除以范围的方法使距离标准化.

3.Statistics 对话框选择要求输出的统计量.

(1)Agglomeration schedule复选项:凝聚状态表.凝聚状态表显示聚类过程中每一步合并的类或观测量,被合并的类或观测量之间的距离以及观测量或变量加入到一类的类水平.因此可以根据此表跟踪聚类的合并过程.因为最接近的两类先聚为一类,因此可以通过聚类过程仔细地查看那些观测量更接近一些.

(2)Proximity Matrix复选项:各项间的距离矩阵.以矩阵形式给出各项之间的距离或相似性测度值.产生什么类型的矩阵(相似性矩阵或不相似性矩阵)取决于在Method对话框中Measure栏中的选择.如果项数很大(观测量数或变量数),该选择项产生的输出量也很大.

(3)Cluster Membership(类成员栏)显示每个观测量被分派到的类(即分类结果,各观测量属于哪一类)或显示若干步凝聚过程:

●None选项:不显示类成员表,是系统默认值.

●Single solution选项:要求列出聚为一定类数的各观测量所属的类.在该选择项右侧的矩形框中输入限定显示的类数.该数值必须是大于1、小于等于参与聚类的观测量或变量总数的整数.例如指定此选择项,并且在其后的矩形框中输入了数字3,则会在输出窗中显示聚为三类时每个观测量属于哪一类.

●Range of solutions选项:要求列出某个范围中每一步各观测量所属的类.在该选择项右侧的矩形框中输入限定显示的类数范围,输入一个最小类数值(左)和一个最大类数值(右).这两个数值必须是不等于1的正整数,最大类数值不能大于参与聚类的观测量数或变量总数.

4.Plots对话框选:择统计图表.可选择输出的统计图表有两种:一个是树形图,一个是冰柱图.

(1)Dendrogram复选项:树形图.

(2)Icicle冰柱图栏:对于生成的冰柱图还可以进一步用以下选择项确定.

●All clusters选项:聚类的每一步都表现在图中.可用此种图查看聚类的全过程.但如果参与聚类的个体很多会造成图过大,没有必要,可以使用下面一个选择项限定显示的范围.

●Specified range of clusters选项:指定显示的聚类范围.当选择此项时,该项下面的选择框加亮,表示等待输入显示范围.在Start后的矩形框中输入要求显示聚类过程的起始步数,在Stop后的矩形框中输入显示中止于哪一步.把显示的两步之间的增量输入到By后面的矩形框中.输入到矩形框中的数字必须是正整数.

●None:不生成冰柱图.

(3)对于显示方向可以在Orientation栏中确定.

●Vertical选项:纵向显示的冰柱图.

●Horizontal选项:显示水平的冰柱图.

5.Save New Variables保存新变量对话框,聚类分析的结果可以用新变量保存在工作数据文件中,单击主对话框的“Save”按钮,展开相应的对话框.

●None选项:不建立新变量.

●Single solution选项:即单一结果.生成一个新变量,表明每个个体聚类最后所属的类.在该项后面的矩形框中指定类数.

●Range of solutions选项:即指定范围内的结果.生成若干个新变量,表明聚为若干个类时,每个个体聚类后所属的类.在该项后面的矩形框中指定显示范围,即把表示从第几类显示到第几类的数字分别输入到后面的矩形框和thred后面的矩形框中.

6.执行Cluster过程,点击主对话框中的“OK”按钮即可.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈