首页 理论教育 一次计算形成法

一次计算形成法

时间:2022-02-12 理论教育 版权反馈
【摘要】:例8-12 以表8-7为基础,用欧氏距离系数作为6个矿石样本相似性评价指标,用一次计算形成法对6个矿石样本进行分类。但linkage和dendrogram函数只能以距离指标作样品相似性度量(评价)指标,如果采用夹角余弦及相关系数则无法利用这两个函数作聚类谱系图。两者的不同是由相似度度量指标不同造成的,与采用何种作图方法无关。

8.5.1 一次计算形成法

该法根据相似矩阵直接按相似性的大小连接成聚类谱系图。

首先选出最相似的一对样本,连接成组,并随时把有关连接顺

序、被连接的样品号和相似性水平记入连接顺序表中,连接完一对样本后,再选择相似性大的一对,如此依次进行,直到把所有点都聚合为一群并得到一个连接顺序表,根据此表按以下原则作出谱系图。

(1)若选出的一对样本在已形成的组中均未出现过,则将它们形成一个独立的新组。

(2)若选出的一对样本中有一个在已经分好的组中出现过,则把另一个样品加入该组中。

(3)若选出的两个样品分别出现在两个组中,则把这两个组合并为一个组。

(4)若选出的一对样品都在同一组中则不需再分。

根据以上原则反复进行,直到把全部样品分类完毕,形成一个分类谱系图。

例8-11 根据某铜镍矿床钻孔中元素的平均含量[表8-7(a)],用相关系数作为相似性统计量,用一次计算形成法对6个矿石样本进行分类。

表8-7(a) 某铜镍矿钻孔中元素含量(μg·g-1

img791

由于表8-7(a)中不同元素的含量数量级相差1~3个级别,故对表8-7(a)中的数据求对数,以消除量级差异较大的影响。MATLAB命令如下

A=log10(X); %X为表8-7(a)中的数据矩阵,A的数据见表8-7(b)。

表8-7(b) 某铜镍矿床元素含量(μg·g-1)的对数值

img792

表8-7(b)中原始数据的量纲一致,数量大小在同一级别,在MATLAB下输入

>>c=corcoef(0,A);

可得6个样本间的相关系数矩阵c如下

img793

根据上面矩阵元素的数值,可知

最大的相关系数r(3,2)=0.989 7,即3,2号元素在相似水平为0.989 7时可划分到同一组中,记j(1)=3,k(1)=2为第一组。

第二大的相关系数r(6,5)=0.983 5,即6,5号元素在相似水平为0.983 5时可划分到同一组中,与第一组连接的元素不同,记j(2)=6,k(2)=5为第二组。

第三大的相关系数r(4,1)=0.959 9,即4,1号元素在相似水平为0.959 9时可划分到同一组中,与第一、第二组所划分的元素均不同,记j(3)=4,k(3)=1为第三组。

第四大的相关系数r(6,2)=0.944 4,其中6号元素在0.983 5相似水平下已与5号划分在第二组中,2号元素在0.989 7相似水平下已与3号元素划分在第一组中,故记j(4)=6,5;k(4)=2,3。根据第(3)条,在0.944 4相似水平下2,3,5,6四个元素可划分到同一组里。

第五大的相关系数r(6,3)=0.914 3,此时j(5)=6,k(5)=3。由于6,3两元素在0.944 4水平下已划分为同一组中,由第(4)条可不必再分,因此表8-7(c)中不再出现这组连接。

对应第六大相关系数r(4,3)=0.899 0,j(6)=4,k(6)=3。由于3号元素已与2,5,6号元素合并,4号元素已与1号元素合并,根据第(3)条,在0.899 0相似水平下,可将第一组与第四组合为一个大组。

其样品连接顺序表如下。

表8-7(c) 根据相关系数矩阵得到的某铜镍矿床样品点连接顺序

img794

按照表8-7(c)可得图8-5所示聚类分析谱系

这个谱系图客观反映了各组样品的地球化学特征。在较低的相似程度(0.944 4)下把无矿的2,3,5,6号样品聚集为一组,矿化的1号、4号样品聚集为另一组(相似水平0.959 9),进一步在较高相似水平(>0.98)下按岩性特征将蛇纹岩(2,3号)和滑镁岩(5,6)分成两个小组,根据该谱系图可直观看出各样品之间的相似性或亲疏关系。

img795

图8-5 由相关系数作出的某铜镍矿床的样品聚类分析(Q型)谱系

例8-12 以表8-7(b)为基础,用欧氏距离系数作为6个矿石样本相似性评价指标,用一次计算形成法对6个矿石样本进行分类。

解:在MATLAB输入命令

>>y=pdist(x); %求两两样本间的欧氏距离向量y

>>yy=squareform(y); %将样本间欧氏距离向量y转化为距离矩阵yy

结果如下

img796

img797

采用一次计算成形法建立的各样品连接顺序表如下

表8-7(d) 根据欧氏距离系数矩阵得到的某铜镍矿床样品点连接顺序

img798

根据表8-7(d)可作出图8-6所示聚类谱系

img799

图8-6 由欧氏距离系数作出的某铜镍矿床的样品聚类分析(Q型)谱系

图8-6与图8-5在细微处有所不同:在欧氏距离=0.621 4时,滑镁岩5与6号样本最为接近,可归为一类,当距离增大到1.028 1时,矿化样本1与4归为一类,距离增大到1.199 1时,3号蛇纹岩与5,6号样本归为一类,距离增大到1.372 5时,2号样本与3,5,6合并为一类。

手工画图8-5、图8-6比较费力,在MATLAB下利用距离指标和linkage函数可创建聚类图。具体命令如下

>>Y=pdist(A); %计算A矩阵中6个样本间的欧氏距离向量并返回给Y

可得

img800

然后输入命令

>>Z=linkage(Y);%使用最短距离创建一个系统聚类树,输入矩阵Y是一距离向量,长度为(n-1)×n/2(n是原始数据矩阵A中的样本个数),是pdist函数的输出向量

可得

img801

Z中的每一行相当于表8-7(d)中的每一行,反映了根据距离最小准则确定的样本间的连接关系。

然后再输入命令

>>H=dendrogram(Z);%生成系统聚类树Z的冰柱图,Z是一个(n-1)×3的矩阵(n是原始数据矩阵A中的样本个数),Z由linkage函数生成,反映由距离远近决定的样本间的连接关系,其作用类似于表8-7(c)。

最后得到如图8-7所示的聚类图。

img802

图8-7 根据MATLAB的linkage函数作出的某铜镍矿床的样品聚类分析(Q型)谱系

显然,图8-7与图8-6类同。但linkage和dendrogram函数只能以距离指标作样品相似性度量(评价)指标,如果采用夹角余弦及相关系数则无法利用这两个函数作聚类谱系图。

由例8-11与例8-12可看出,采用相关系数度量样本的相似度所得聚类分析谱系图(图8-5)与采用距离系数度量样本相似程度所得的聚类分析谱系图(图8-6)不相同。两者的不同是由相似度度量指标不同造成的,与采用何种作图方法无关。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈