首页 理论教育 判别法评价

判别法评价

时间:2022-02-12 理论教育 版权反馈
【摘要】:任何一种判别总是存在误判,一个好的判别法应该是误判的概率尽可能的小.对一个实际问题经过某种判别法判别归类以后应该对其误判情况进行评价.常用的评价方法有如下几种:计算误判率,但要求知道总体和判别函数的分布;用已建立判别函数的样品进行回代,估计错判概率偏低;一部分样品建立判别函数,一部分样品进行判断,优点易计算,不需知道总体和判别函数的分布,缺点是建立判别函数时,未能利用全部信息,且需要样品量大.两种

任何一种判别总是存在误判,一个好的判别法应该是误判的概率尽可能的小.对一个实际问题经过某种判别法判别归类以后应该对其误判情况进行评价.常用的评价方法有如下几种:计算误判率,但要求知道总体和判别函数的分布;用已建立判别函数的样品进行回代,估计错判概率偏低;一部分样品建立判别函数,一部分样品进行判断,优点易计算,不需知道总体和判别函数的分布,缺点是建立判别函数时,未能利用全部信息,且需要样品量大.

例7-3 蠓虫的分类——MCM1989

两种蠓Af和Apf已由生物学家W.L.Grogna和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分,现给出9只Af蠓用“⊙”标记,6只Apf蠓用“”标记(如图7-1),根据给出的触角长度和翼长识别出一只标本是Af还是Apf是重要的.给定一只Af族或Apf族的蠓,你如何正确的区分它属于哪一族?将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)的三个标本.设Af是传粉益虫,Afp是某种疾病的载体,是否应该修改你的分类方法,若需修改,如何改?

【解题思路】

此题在前面例7-1中已经用聚类分析方法讨论过,现在我们用判别分析方法进行来讨论该题.

利用表7-2中给出的蠓虫翼长数据计算可得:

●马氏距离判别法

在蠓虫分类中,k=2,G1=Af,G2=Apf,指标x=(x1,x2)′是二维的,其中x1为触角长,x2为翼长.学习样本共包含n=15个样本,其中9个属Af,6个属Apf.

距离判别模型中,把每个样本视为二维空间中的一个点,可算得代表Af的9个点的集合与代表Apf 的6个点的集合各自的中心:a1,a2.

对于给定的样品x=(x1,x2)′,称x与a1之间的“距离”为x距Af 类的“距离”,称x与a2之间的“距离”为x距Apf 类的“距离”.若x距Af 类的“距离”小于x距Apf 类的“距离”,则判断x∈Af,反之则判断x∈Apf.这种直观地根据“距离”判别样品所属类别的方法,称为距离判别法.这里的距离可以是多种的,下面用马氏距离进行判别.

显然这是样本离差阵∑1≠∑2的情形,记 W(i;x)=d2(x,Gi)是二次函数,其中d2(x,Gi)=(x-ai)′∑-1i(x-ai).由具体数据计算可得:

W(1;x)=189.90x21-182x1x2+110.25x22-208.33x1-140.61x2+274.02.

W(2;x)=790.02x21-881.4x1x2+400.08x22-240.24x1-460.42x2+590.89.

根据判别规则:若W(k;x)=min {W(i;x)|i=1,2,…,r},则x∈Gk,回代检验所有的已知样本,结果都正确,对未知样本检验的结果如下:

即所检验得三个未知样本都属于Af族.

●Fisher判别法

由上面的讨论可知,Fisher判别函数为W(x)=C′x,计算可得C=(2.930,0.258)′,从而有W(x1,x2)=2.920x1+0.258x2,记y1=W(a1)=4.6055,y2=W(a2)=4.0923,取判别阈值.

判别规则是:若W(x)>y0,则x为Af(1)族;否则,为Apf(2)族.回代检验所有的已知样本,结果都正确,对未知样本检验的结果如下:

即所检验的三个未知样本中,样本(1.24,1.80)属于Apf族;样本(1.28,1.84)属于Apf族;样本(1.40,2.04)属于Af族.

●Bayes判别法

在正态总体假设下,可得回代都正确,对未知样本检验的结果是,样本(1.24,1.80)属于Apf族;样本(1.28,1.84)属于Apf族;样本(1.40,2.04)属于Af族.此判别法得到的结果和Fisher判别法得到的结果相同.

虽然用上述三种模型得到的结果有些不同,也就是说存在着错判.对判别分析来说有一个错判概率的问题,对具体问题哪一种判别方法好,错判概率是一个指标,它应该尽量小,最后的结果往往是需要综合考虑的.但是上面使用的判别方法都可以作为第一问的答案;Fisher判别法和Bayes判别法所得结果可以作为第二问的答案.如果Af是传粉益虫,Afp是某种疾病的载体,那么可对原来的15个学习样本进行重新分类,利用聚类分析的方法(例7-1),把原来15个样本分成5类按Af~Apf(1~15)的次序分成:010034016;{2,3,4,5,6,7,8};{9};{10};{11,12,13,14,15},再用马氏距离判别法进行判别.但判别规则改为:当W(ix)<ci时,xGi,其中判别阈值ci可适当选取,它不仅与原来的15个样本有关,而且是与保护传粉益虫Af有关,还是消灭传病害虫Apf重要有关.也可以通过调整Fisher判别法中的阈值y0来进行判别的控制.综合考虑各种判别法所得到的结果.此题数据量不大,可以直接计算.但是数据量比较大时一般都可以利用统计软件来计算,在利用软件求解时要注意该软件中判别函数的定义及判别方式,不同的软件有不同的定义形式.

在判别分析数学模型中,很多情况下都不需要编写另外的程序加以解决,因为在统计软件SPSS和DPS中都有判别分析的模块.尤其针对大数据问题,这给模型的建立与解决带来了极大的便利.下面通过例子来介绍利用SPSS解决判别分析的过程.在介绍中侧重如何使用软件解决问题,而省略了若干模型建立的过程.

SPSS for Windows提供的判别分析过程是Discriminant过程.Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别.对比原始数据的分类和判别函数所判的分类,给出错分概率.

判别分析可以根据类间协方差矩阵,也可以根据类内协方差矩阵.每一已知类的先验概率可以取其值相等,也可以与各类样本数量成正比.判别分析可以根据要求,给出各类观测量的单变量描述统计量;线性判别函数系数或标准化及未标准化的典型判别函数的系数;类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵,给出按判别函数判别的各观测量所属类别;带有错分率的判别分析小结;还可以根据要求生成表明各类分布的区域图和散点图.如果希望把部分聚类结果存入文件,还可以在工作数据文件中建立新变量,表明观测按判别函数分派的类别、按判别函数计算的判别分数和分派到各类去的概率.

例7-4 大气污染程度判定问题

我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点每种气体实测16次.计算每个取样点没种气体的平均浓度,数据见下表所示.气体数据对应的污染地区分类如表中最后一列所示.现有取自该地区的4个气体样本,气体指标如表中后4行所示,试判别这4个样品的污染分类.

表7-10 大气样品数据

续表

【解题思路】

首先打开SPSS软件,建立数据文件,如图7-13所示.氯、硫化氢、二氧化硫、碳4、环氧氯丙烷和环乙烷分别用x1,x2,x3,x4,x5和x6表示.再定义一变量名为result用于区分气体种类.

图7-13 SPSS数据表

从“Analyze”菜单->“Classify”->“Discriminant”项,弹出Discriminant Analysis对话框,如图7-14所示.从对话框左侧的变量列表中选择result,点击向右的箭头按钮使之进入Grouping Variable框;并点击“Define Range”钮,在弹出的Discriminant Analysis:Define Range对话框中,定义判别原始数据的类别区间,如图7-15所示.本例为两类,故在Minimum处输入1,在Maximum处输入2,点击“Continue”钮返回Discriminant Analysis对话框.

再从对话框左侧的变量列表中选择x1,x2,x3,x4,x5,x6,点击向右箭头使之进入Independents框,作为判别分析的基础数据变量.系统提供两类判别方式供选择,一类是Enter Independent together,即判别的原始变量全部进入判别方程;另一类是Use stepwise method,即采用逐步的方法选择变量进入方程.

图7-14 软件示意图

图7-15 软件示意图

点击“Statistics”按钮,弹出Discriminant Analysis:Statistics对话框,在Descriptive栏中选Means项,要求对各组的变量作均值与标准差的描述;在Function Coefficients栏中选Unstandized项,要求显示判别方程的非标准化系数,如图7-16所示.之后,点击“Continue”按钮返回Discriminant Analysis对话框.

点击“Classify”按钮,弹出Discriminant Analysis:Classification对话框,在Plot栏选Combined-groups项,要求作合并的判别结果分布图;在Display栏中选Casewise results项,要求对原始数据根据建立的判别方程逐一回代重判别,同时选Summary table项,要求对这种回代判别结果进行总结评价,如图7-17所示.之后,点击“Continue”按钮返回Discriminant Analysis对话框.

图7-16 软件示意图

图7-17 软件示意图

点击“Save”按钮,弹出Discriminant Analysis:Save New Variables对话框,选Predicted group membership项要求将回代判别的结果带入原始数据库中,如图7-18所示.点击“Continue”按钮返回“Discriminant Analysis”对话框,之后再点击“OK”按钮即完成分析.

图7-18 软件示意图

在运行SPSS后,可以得到以下结果.表7-11、表7-12显示系统处理数据简明表;数据按变量result分组,共有15个样本作为判别基础数据进入分析,第一组7例,第二组8例.分组给出了各变量的均值与标准差.

表7-11 数据分析过程

表7-12 全局统计

表7-13共6张为典型判别方程的方差分析结果,其特征值(Eigenvalue)即组间平方和与组内平方和之比为23.678,典型相关系数(Cannoical Corr.)为0.98,Wiks’s λ为0.041,经过χ2检验,χ2为32.059,P<0.000.

用户可通过判别方程的标准化系数,确定各变量对结果的作用大小.如本例中氯、硫化氢、二氧化硫、碳4、环氧氯丙烷和环乙烷对于气体分类的影响因子分别为-0.582、1.794、0.025、2.148、-2.519和0.0513.其中环氧氯丙烷对于分类的影响最大,而二氧化硫的影响最小.考查变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示x1的变量与函数间的相关系数为0.061,x2的变量与函数间的相关系数为0.059,x3的变量与函数间的相关系数为0.058,x4的变量与函数间的相关系数为0.273,x5的变量与函数间的相关系数为-0.086,x6的变量与函数间的相关系数为0.247.

表7-13 典型判别函数特征值

Eigenvalues

Wilks’ Lambda

Standardized Canonical Discriminant Function Coefficients

Structure Matrix

Canonical Discriminant Function Coefficients

Functions at Group Centroids

表7-14、表7-15为原始数据逐一回代的判断结果和预测分类结果的显示.

表7-14 用判别函数对观测量分裂的结果

Classification Processing Summary

表7-15 对原始数据逐一进行判别分析

Prior Probabilities for Groups

Casewise Statistics

根据系统显示的非标准化判别方程系数,得到判别方程为:

D=-33.360x1+86.905x2+0.845x3+36.894x4-39.447x5+60.912x6-11.648

第一类气体的中心点为-4.843,第二类气体的中心点为4.237.本题为两类判决,两类判决以0为分界点.将后面四种气体的六项指标带入判别方程,求出判别分.如求出的判别分大于0,为第二类气体;若求出的判别分小于0,为第一类气体.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈