首页 百科知识 有序事物的聚类分析

有序事物的聚类分析

时间:2022-03-18 百科知识 版权反馈
【摘要】:在实际应用中,有些事物之间有先后顺序并且不能变动,于是就有了有序事物的聚类分析.例如,对青少年的生长发育阶段进行研究时,年龄的顺序是不能改变的,否则就会失去意义;在地质勘探中,要通过岩心研究地层结构,取样资料应按地层的深浅进行排序,不能随意打乱.如果用x1,x2,…,xn表示n个有序的事物,分类后的每一类必须是这样的形式:xi,xi+1,xi+2,…
有序事物的聚类分析_统计中的智慧

在实际应用中,有些事物之间有先后顺序并且不能变动,于是就有了有序事物的聚类分析.例如,对青少年的生长发育阶段进行研究时,年龄的顺序是不能改变的,否则就会失去意义;在地质勘探中,要通过岩心研究地层结构,取样资料应按地层的深浅进行排序,不能随意打乱.

如果用x1,x2,…,xn表示n个有序的事物,分类后的每一类必须是这样的形式:

xi,xi+1,xi+2,…,xj,其中1≤i≤j≤n.

即在同一类中的事物必须顺序相邻.我们称这类问题为有序事物的聚类分析.

下面以儿童的生长发育问题为例,讨论有序事物的聚类分析.

例1 儿童每年增加的体重与其生长发育规律有关.表24.1列出的是某地区1—11岁儿童每年的体重平均增长数.

表24.1 儿童体重的年平均增长数

根据表24.1中的数据,将1—11岁儿童的发育分为几个阶段比较合适?怎样划分为好?

这个问题的实质是,对表24.1中反映儿童增重数的11个有序数据进行分类,每一类中的数据必须保持原有的顺序;并对各种不同的分类进行优劣比较,从中找出好的分类方法.这11个数据可以分成1类,2类,…,11类.分成1类和11类的方法只有一种,其余每类都有多种不同的分类方法.欲达到最后目标,只能逐类加以讨论.

如果要将11个增重数据分成保持原有顺序的3类,可以有很多种分类方法,其中一种分类方法是:

﹛1,2﹜,﹛3,4,5,6,7﹜,﹛8,9,10,11﹜.

这里﹛1,2﹜表示将1岁和2岁的增重数分为一类,﹛3,4,5,6,7﹜表示将3—7岁的增重数分为一类,﹛8,9,10,11﹜表示将8—11岁的增重数分为一类.

为了对不同的分类进行评价,必须有一个区分其优劣的客观标准.一种好的分类方法,应该使同一类事物相互之间的差别尽量小,而类与类之间的差别尽量大.例如,假如将城市居民的收入分为高收入、中等收入和低收入3类,那么同处中等收入的一群居民相互之间的收入应该差距不大,而处于不同类别的两个居民的收入一般应有显著的差距.

我们用同一类数据中的最大值与最小值的差,表示该类内部事物相互之间的差距.

在上述分类方法中,第一类﹛1,2﹜对应的增重数为9.3,1.8,这一类内部的差距为

9.3-1.8=7.5.

在第二类﹛3,4,5,6,7﹜对应的增重数中,最大值为1.9,最小值为1.3,因此这一类内部的差距为

1.9-1.3=0.6.

在第三类﹛8,9,10,11﹜对应的数据中,最大值为2.3,最小值为1.9,因此这一类内部的差距为

2.3-1.9=0.4.

我们用这种分类方法中的3个类内差距的平均值来评价该方法的优劣,即规定该分类方法的优劣指标K为

对于另一种分类方法

﹛1,2,3﹜,﹛4,5,6,7,8﹜,﹛9,10,11﹜,

第一类的类内差距为7.5,第二类的类内差距为0.7,第三类的类内差距为0.4.可算得这种分类方法的优劣指标为2.87.

我们还可以算得,分类方法

﹛1,2,3,4﹜,﹛5,6﹜,﹛7,8,9,10,11﹜

的优劣指标为2.9.

试将上述3种分类方法加以比较.因为优劣指标K的值表示分类方法的类内差距的平均值,K值较小者为优,所以第一种分类方法优于第二种分类方法,第二种分类方法优于第三种分类方法.

将11个有序数据不改变其顺序分为3类,一共有多少种不同的分类方法?如果将每两个相邻数据之间的“间隔”想象为一个空格,则在11个数据之间共有10个空格.将11个有序数据不改变顺序分为3类,就相当于在10个空格中置放两个栅栏将数据分为3截.按照组合计算的方法,一共有种分法.只要分别计算出每种方法的优劣指标的值,然后进行大小比较,就可以得到分成3类时最好的分类方法为这种分类方法的优劣指标K的值为0.30.

﹛1﹜,﹛2,3,4,5,6,7﹜,﹛8,9,10,11﹜.

用同样的方法,我们分别找出将11个有序数据分成1类,2类,…,11类的最好分类方法,并计算出各最好分类方法的优劣指标K的值,如表24.2所示.

表24.2 各最好分类方法的优劣指标值

由表24.2中的数据可以看出,如果n=1,这时K=8,优劣指标的值太大,实际上这时并没有分类;当n=2时,K=0.5,优劣指标的值仍然比较大;当n=3或n=4时,优劣指标K的值已降为0.3和0.2;当n>4时,优劣指标K的值相差不大.因此,将这11个数据分成3类或4类比较合适.

对于分成3类情况的合理性,我们结合儿童的生长发育情况可作如下解释:

我们已经知道分成3类时最好的分类方法为

﹛1﹜,﹛2,3,4,5,6,7﹜,﹛8,9,10,11﹜,

这相当于将儿童从1岁到11岁分为如下3个生长发育阶段:1岁时的儿童处于婴儿期,刚刚脱离母体,整天吃吃睡睡,处于体重增长最快的阶段;2岁至7岁时的儿童处于幼儿期或刚入小学的阶段,要学走路,学说话,要玩耍,并开始读书识字,各方面的活动量都在不断增加,能量消耗比较大,因此体重增长有所减缓;8岁至11岁时的儿童处于小学阶段,生活比较有规律,并开始进入发育期,因此体重稳定增长.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈