首页 理论教育 距离和相似系数

距离和相似系数

时间:2022-02-12 理论教育 版权反馈
【摘要】:按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离.点间距离有很多定义的方式.最简单的是欧氏距离,还有其他的距离.当然还有一些和距离起同样作用的概念,比如相似性等.两点相似度越大,就相当于距离越短.由一个点组成的类是最基本的类,如果每一类都由一个点组成,那么点间的距离就是类间距离.但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的.比如

按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离.点间距离有很多定义的方式.最简单的是欧氏距离,还有其他的距离.当然还有一些和距离起同样作用的概念,比如相似性等.两点相似度越大,就相当于距离越短.由一个点组成的类是最基本的类,如果每一类都由一个点组成,那么点间的距离就是类间距离.但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的.比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离.在计算时,各种点间距离和类间距离的选择可以通过统计软件的选项来实现.不同选择的结果会不同,但一般不会差太多.下面给出Q型聚类法的常用距离和R型聚类法的常用相似系数.

设有n个样品X1X2,…,Xn,测得p 项指标如表7-1所示.

表7-1 资料矩阵

●Q型聚类分析常用的距离

记第i个样品Xi与第j个样品Xj之间距离,它满足以下条件:

通过计算可得一对称矩阵D=(dijn×n,dii=0.dij越小说明Xi与Xj越接近.可以用作这里的距离有很多,常用的距离有以下三种:

R型聚类分析常用的相似系数:如果cij满足以下三个条件,则称其为变量Xi与Xj的相似系数:Cij越接近于1,则Xi与Xj的关系越密切.

常用的相似系数有以下两种:

聚类过程可以描述为:选取一种距离或相似系数作为分类统计量;计算任何两个样品Xi与Xj之间的距离或相似系数排成一个距离矩阵或相似系数矩阵;规定一种并类规则(距离:越小越接近,相似系数:越大越接近).

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈