首页 理论教育 重心到三个顶点距离

重心到三个顶点距离

时间:2022-03-18 理论教育 版权反馈
【摘要】:系统聚类法(hierarchical clustering method)是最常用的、也是比较成熟的一种聚类分析方法,又称谱系聚类法或者层次聚类法.系统聚类法的基本思想是:设有n个事物.开始时,将每个事物各看成一类,因此一共有n类,这时类与类之间的距离也就是事物之间的距离.然后找出距离最小的两类,将它们合并为一类.这时的类可能已包含多个事物,因此需要规定类与类之间的距离,以衡量各类之间的差别.计算
系统聚类法_统计中的智慧

系统聚类法(hierarchical clustering method)是最常用的、也是比较成熟的一种聚类分析方法,又称谱系聚类法或者层次聚类法.系统聚类法的基本思想是:设有n个事物.开始时,将每个事物各看成一类,因此一共有n类,这时类与类之间的距离也就是事物之间的距离.然后找出距离最小的两类,将它们合并为一类.这时的类可能已包含多个事物,因此需要规定类与类之间的距离,以衡量各类之间的差别.计算各类之间的距离,并找出距离最小的两类,将它们合并为一类.再找出距离最小的两类,将它们合并为一个新的类.……这样一直下去,每次都会使类别的个数减少1,一直到将所有的事物合并为一类为止.或者合并到类的数目满足聚类的要求为止.

图24.1 聚类图示例

聚类分析的结果,可以用一个图形象地表示出来,这种图像一棵树,称为聚类图.

图24.1就是一个聚类图.如果我们想知道分成2类的聚类结果,只要在与2条竖线相交的位置画一条水平线l1,就可以看出分成的2类是:

﹛1,2,3﹜,﹛4,5,6﹜.

如果我们想知道分成3类的聚类结果,只要在与3条竖线相交的位置画一条水平线l2,就可以看出分成的3类是:

﹛1﹜,﹛2,3﹜,﹛4,5,6﹜.

在系统聚类分析的每一步中,都要寻找距离最小的两类,因此必须对类与类之间的距离作出规定,可以采用不同的方法规定类与类之间的距离.当然,随着这种规定的不同,所得到的聚类分析的结果也就可能不一样.这一点将在下面的例题分析中进一步加以说明.

例2 足球是人们最喜爱的运动之一.每届足球世界杯赛都是全世界尤其是青少年狂欢的节目.2002年足球世界杯赛,最后有16支球队进入前16名,这些球队在进入前16名以前的分组赛中的进球数和失球数统计如表24.3所示.

表24.3 2002年足球世界杯赛分组赛进球、失球数统计

以进球数x为横坐标,以失球数y为纵坐标,每个足球队可以用坐标平面上的一个点来表示,由此可以作出这16支球队的散点图,如图24.2所示.

下面对这16支足球队进行系统聚类分析.我们采用通常平面上点的距离表示对应的球队之间的差别.

(1)最短距离法.将两个类中各点之间的最短距离规定为这两个类的类间距离.

图24.2 足球队散点图

参见图24.2,开始时,16个点就是16个类.由于1号点、10号点、15号点为同一点,它们之间的距离为0.因此首先将1号点与10号点合并为一类,再与15号点合并为一类,记为G1.11号点与14号点也是同一点,因此也可合并为一类,记为G2.

接着计算每两个类之间的距离,可得目前两个类间的最短距离为1.6号点与G1类间的距离为1,因此将6号点与G1类合并为新的类,记为G3.4号点与8号点的距离也为1,因此可合并为一类,记为G4.

再计算目前每两类之间的距离,可得最短距离为1.G3类含有点1、10、15、6.2号点与G3中的6号点的距离最短且为1,因此2号点与G3的距离为1,于是将2号点与G3合并成一个新的类.16号点与G4中的4号点的距离为1,即16号点与G4的距离为1,于是将16号点与G4合并成一类.

如此继续下去,直至聚合成一类为止,得到聚类图,如图24.3所示.

从这张聚类图可以看出,如果将球队分成3类,只要在与3条竖线相交的位置画一条水平线,就可看出聚类结果为

第1类:﹛9.德国,5.巴西﹜;

第2类:﹛3.西班牙﹜;

第3类:﹛12.英格兰,16.比利时,8.美国,4.巴拉圭,7.韩国,13.墨西哥,14.意大利,11.瑞典,2.塞内加尔,6.土耳其,15.日本,10.爱尔兰,1.丹麦﹜.

图24.3 最短距离法聚类图

(2)最长距离法.将两个类中各点之间的最长距离规定为这两类的类间距离.

在例2中,仿照上面的方法,可得到聚类图,如图24.4所示.

图24.4 最长距离法聚类图

如果将球队分成3类,由聚类图可得到下列分类结果:

第1类:﹛9.德国,5.巴西,3.西班牙﹜;

第2类:﹛8.美国,4.巴拉圭,16.比利时,2.塞内加尔﹜;

第3类:﹛12.英格兰,13.墨西哥,7.韩国,14.意大利,11.瑞典,6.土耳其,15.日本,10.爱尔兰,1.丹麦﹜.

(3)重心法.将两类的重心之间的距离规定为这两类的类间距离.

一个类的重心就是属于这一类的所有样品的平均值.设Gp=﹛x1,x2,…,xn﹜,则Gp的重心为

显然,如果一个类中只有一个样品,则重心就是这个样品.如果将Gp,Gq两类合并,则合并后的类Gr的重心为

其中np,nq是Gp,Gq中的样品数,nr=np+nq是Gr中的样品数.

在例2中,设G1=﹛1.丹麦,10.爱尔兰,15.日本,6.土耳其﹜,G2=﹛7.韩国,13.墨西哥﹜,于是,G1的重心的坐标为

因此G1的重心为(5,2.25).

G2的重心的坐标为

因此G2的重心为(4,1.5).

所以G1与G2两类之间的距离为

按照上述规定的类间距离计算方法,经过逐步合并,可以得到聚类图,如图24.5所示.

图24.5 重心法聚类图

从此聚类图可以看出,如果将球队分成3类,聚类结果如下:

第1类:﹛9.德国,5.巴西,3.西班牙﹜;

第2类:﹛16.比利时,8.美国,4.巴拉圭,2.塞内加尔﹜;

第3类:﹛12.英格兰,14.意大利,11.瑞典,13.墨西哥,7.韩国,6.土耳其,15.日本,10.爱尔兰,1.丹麦﹜.

通过对例2的分析我们知道,可以采用不同的方法规定两个类之间的距离.当类间距离的规定不同时,可能会得到不一样的聚类分析结果.除了上述3种规定类间距离的方法,还有多种其他方法.

通过上面的例子可以看出,所谓聚类就是将数据划分成不同的类的一个过程,要求处于同一类中的对象具有很大的相似性,而处于不同类的对象之间则具有很大的相异性.从统计学观点看来,聚类分析是通过数据建模简化数据的一种科学方法.当今世界已进入“大数据时代”.根据科学家推算,如果将2013年全世界的数据存储在光盘上,并且将这些光盘分成5堆,每一堆都可以从地球堆到月球.人们对于海量数据的挖掘和运用,将给人类生活、工作和思维产生巨大的影响,而聚类分析正是对大数据进行挖掘的重要工具之一.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈