首页 百科知识 常用非参数检验

常用非参数检验

时间:2022-10-21 百科知识 版权反馈
【摘要】:非参数检验又称自由分布检验,具体指在假设检验时不对总体分布形状加以限制的检验。其次,非参数检验的方法比较灵活,用途广泛。由于对原始数据中包含的信息利用得不够充分,非参数检验的功效相对较弱。这主要是由于符号检验对信息的利用最不充分,参数检验与自由分布检验是针对不同情况提出的两种统计方法,它们各有优缺点,可以互为补充。这就是中位数检验的基本原理。
常用非参数检验_社会统计学

第一节 常用非参数检验

非参数检验又称自由分布检验,具体指在假设检验时不对总体分布形状加以限制的检验。但这里的非参数并不是指“不含参数或没有参数”。

一、基本概念

与参数检验相比,自由分布检验有以下优点:

首先,检验条件比较宽松,适应性强。自由分布检验对资料的要求不像参数检验那样严格,它适合于处理诸如非正态的、方差不等的或分布形状未知的资料。

其次,非参数检验的方法比较灵活,用途广泛。其不但可以应用于处理测量层次较高的定距、定比数据,也适用于层次较低的定类、定序数据。对于定类数据与定序数据,可使用符号检验、秩和检验等方法进行检验。

再次,自由分布检验的计算相对简单。由于自由分布的检验方法不用复杂计算,一般使用计数方法就可以了,因此,计数过程与结果解释都比较简单、直观与明显。

自由分布检验由于其要求的条件简单,缺点也十分明显。由于对原始数据中包含的信息利用得不够充分,非参数检验的功效相对较弱。当总体的分布形式已知时,基于这种分布类型的参数方法,一般说来要优于非参数方法。例如,对于一批资料,可同时适用于参数的t检验、非参数的符秩检验和符号检验。其检验功效是,t检验的最好,符秩检验次之,符号检验最差。这主要是由于符号检验对信息的利用最不充分,参数检验与自由分布检验是针对不同情况提出的两种统计方法,它们各有优缺点,可以互为补充。

下面简单介绍几种最常用的自由分布检验方法。

二、符号检验

符号检验虽然是自由分布检验中最简单的一种检验方法,但是这种方法却十分常用。该方法是建立在以正、负号表示样本数据与假设参数值差异关系基础上的,因此被称为符号检验。该方法既适用于单样本总体中位数的检验,也适用于配对样本差异显著性程度检验。

(一)单样本场合的符号检验

在单样本的场合,可以用符号检验方法,检验总体的中位数是否在某一指定的位置。

假设总体中位数是A,即H0:M0=A,H1:M0≠A,再从样本观测结果:

x1,x2,x3,……,xn

每个数据都减去A,只记录其差数的符号,即,当xi>A时,记正号;当xi<A时,记负号;当xi=A时,特此数据剔除,不记录。设正号个数是n+,负号个数是n-,从理论上看,当原假设为真时,n+与n-应该很接近;若两者相差太远,就有理由拒绝原假设。这就是中位数检验的基本原理。

[例8.1]设有20个职工,他们月经济收入(元),抽样结果如下;

1680 1630 1600 1720 1620 1680 1520 1530 1670 1650

1640 1420 1730 1650 1710 1860 1670 1700 1580 1600

试以α=0.10的检验水平,判定总体工人中位数是否是1600元。

解:第一步:作出假设。H0∶Me=1600元,H1:Me≠1600元,由备选假设知,这个检验是双侧的。

第二步:计数。对样本数据,大于160的记下“+”,小于160的记下“-”,等于160的予以删除(以0记之),结果如下:

+ + 0 + + + - - + +

+ - + + + + + + - 0

计数以上“+”的个数是n+=14,n-=4,剔除数据2个,最后有效的样本个数为n=(n+)+(n-)=18。

第三步:确定拒绝域。显著水平α=0.10,由于进行双侧检验,拒绝域分布在两边,每侧概率α/2=0.05,查二项分布临界值表(附表5),由n=18,查得拒绝域的临界值是13。

第四步:选择n+,n-较大者n+=14,再与临界值比较。结果是n+= 14>13。

第五步:判断。由上一步的比较结果可知,样本落入拒绝域,所以拒绝原假设,认为样本数据不能证明总体中位数等于1600元,或者说职工月收入中位数不等于1600元。

(二)配对样本的符号检验

配对样本是指一个样本出现两个不同的观察值,如经过培训前后的两个成绩、父母亲的不同受教育程度、实验过程中的实验组数据与对照组数据,问这两个观察值是否有明显的差异。检验实验结果是否存在显著的差异,这就是—种配对样本场合,可通过符号检验方法来确定两组配对样本间是否有显著差异。配对样本数据是一种特殊型数据,其位置的变动必须是成双成对地移动。

配对样本与单样本符号检验基本原理是一致的。从两个总体中分别抽出一个容量相等的样本,然后将样本的数据进行一一配对,得到一组配对值。再将各对配对值相减,记录下差数的符号,计算出“+”的个数n+与“-”的个数n-。如果两个样本的总体差异不显著,配对值之差的正负号出现的概率各是1/2,则n+与n-应当非常接近;如果n+、n-相差太大的话,说明两总体存在显著差异。

[例8.2]某教师随机抽取10个学生,调查教学前和教学后的学生成绩以了解教学效果,见表8.1。

表8.1          10个学生教学前和教学后的学生成绩

img324

问教学是否对学生的成绩有影响?

第一步:作出假设。H0∶p≤1/2    H1∶p>1/2

原假设是教学对学生成绩没有任何影响,正、负号出现的概率相同,都是1/2。假设是教学对学习成绩提高更有利,正号出现的概率大于负号出现的概率。因此检验是一个右侧检验。

第二步:计数n=(n+)+(n-)=9,Max(n+,n-)=6。

第三步:确定拒绝域。显著水平α=0.05,由于进行右侧检验,拒绝域分布在右边,在n=9,单侧检验的情况下,查二项分布临界值表(附表5),得到拒绝域的临界值是8。

第四步:比较正号个数6与临界值8,结果是8>6。

第五步;判断。由比较结果可知,样本落入接受域。所以,没有足够的理由拒绝原假设,教学对学生成绩的影响不明显。

符号检验的优点,它对总体的分布、方差的同一性等都不作任何假定,只需通过差数确定正负号的个数就可以了。它适用于测量要求不太精密的场合,也适合于那些不能和不宜于定量测量而只能定序测量的场合。然而,符号检验的缺点是,其仅考虑差异的方向,不考虑数量差异的程度,从而丧失了一部分可资利用的信息。应该注意的是,如果样本量n≤25,作为二项分布处理比较合适;如果n>25,则适宜作正态分布处理。

三、秩和检验(Wilcoxon带符号的等级检验)

为弥补符号检验对数据信息利用不充分,有人提出秩和检验方法。秩和检验方法也可用于检验两个独立的样本是否来自同一个总体,或判断两总体间是否存在显著性的差异。它与符号检验最主要的区别是:符号检验只考虑样本间差数的符号,而秩和检验还要考虑差数的顺序,比符号检验利用数据信息更加充分,因此,检验功效就更强。应注意的是,秩和检验也只是利用样本差数的顺序或位置,并没有利用样本差数数值本身,因而比参数检验利用样本数值本身的信息要逊色一些;但是,参数检验受总体分布已知这一条件的限制,而秩和检验就不受这个限制,这又是秩和检验的长处。这种方法可以用于配对样本,同样可以用于非配对样本的差异检验。

设分别从两个未知的总体独立、随机地抽取容量为n1和n2的样本,把样本容量较小的总体称为总体Ⅰ,容量较大的总体称为总体Ⅱ;如果两样本容量相等,就把任意一个总体称作总体Ⅰ,另一个称作总体Ⅱ,可设n1≤n2。

(1)现将两个样本混合起来,并按数据的大小从小到大排列编号,每个数值的编号就是它的秩次。(2)如果混合样本中有若干个相同的数值,则把它们的秩次进行简单算术平均,用此平均值作为这些数值的秩次。(3)计算来自总体Ⅰ(或正号)的n1个数据在混合样本中的秩次之和,记为T+,总体Ⅱ(或负号)的n2个数据在混合样本中的秩次之和,记为T-。(4)将较小的T值作为T检验统计量。(5)设定显著性水平α。(6)由Wilcoxon检验表(附表9)或“秩和检验表”(附表6)给出临界值,进行判别,分析结果。

由于T的分布与n1和n2的大小都有关,因此秩和检验中的临界值的确定有两种方法。

第一种方法,当n1和n2都不超过10时,查“秩和检验表”(附表6)确定临界值;

第二种方法,当n1和n2都超过10时,秩和T服从平均数n1*(n1+n2+ 1)/2,方差为n1*n2(n1+n2+1)/12的正态分布:

T~N[n1*(n1+n2+1)/2,n1*n2(n1+n2+1)/12]    (8.1)

先对T进行标准化变换,再利用标准正态分布表,确定检验的临界值。下面通过具体的例子,说明秩和检验的应用。具体使用请参考张彦的《社会统计学——原理与方法》(南京大学出版社,1997:389~393)。

[例8.3]某教师随机抽取10个学生,调查教学前和教学后的学生成绩以了解教学效果,见表8.2。

表8.2          10个学生教学前和教学后的成绩及其等级差

img325

试以0.05的显著性水平,检验教学是否对学生的成绩有影响?

解:n1=6,n2=3

第一步:作出假设。H0:M=M,H1:M≠M

原假设是教学对于学生的成绩没有影响,成绩差异不明显,备择假设是教学对于学生的成绩有影响,学生成绩差异明显,属于双侧检验。

第二步:求秩和。将样本混合、排列,n1=6,n2=3。第2个样本容量小,故取负数的秩和T=T-=3+6.5+1=10.5,正数的秩和T+=34.5。现在问题是正数秩和与负秩和是否有明显差异?

第三步:确定拒绝域。

显著水平α=0.05,进行双侧检验,查“秩和检验表”附表6,在n1=6,n2=3情况下,查得Tl(α)=8,T2(α)=22。

第四步:比较秩和与临界值大小,结果是:8<10.5<22,即T1(α)<T<T2(α)。

第五步:判断。样本落入接受域,所以接受原假设,样本数据证明负数秩和与正数秩和无明显差异。即教学对学生成绩影响十分小。

四、游程检验

游程检验经常检验二分类数据,一般是按时间或某种顺序排列的数列资料,视其是否呈现随机变化。具体做法是将连续的相同取值的记录作为一个游程,比如在投硬币时,如果以1表示正面,以0表示反面。在进行了若干次投掷后,将得到一个以1、0组成的数据序列,如:11100110110001。最前面的3个1为2个游程,游程的长度为3,随后的两个0为第2个游程,游程长度为2,……整个序列为7个游程,最长游程长度为3。

游程检验主要进行样本的随机性的检验,但实际多应用于检验两个总体之间的差异是否显著。游程检验的基本原理十分简单:先将两个样本混合起来,按照大小排列,并赋予其秩。如果总体1的样本明显高于总体2的样本,那么将总体1、2样本混合起来以后排序,如果总体1都是高秩,总体2都是低秩,则表示总体1明显不同总体2。如果总体1和总体2的秩次随机交错,那么通过两个样本交错的次数(游程数)来检定两总体是否有显著性差异。

游程是指一个重复出现的某一种类字符串段。同一类的游程出现的次数,称游程数。不同类游程数的和,称总游程数。总游程数R的最小值是2,在n1与n2不相等时,R的最大值是2*min(n1,n2)+1;在n1=n2时,R的最大值是n1+n2。当R取得最大、最小值时,字符串的排列是最有规律的。R取值适中时,字符串的排列就较零乱。游程检验可用来检验一个样本是否是“随机”地来自总体。样本中具有某特征的单位分布得越“零乱”,越不具有规律性、倾向性,越说明样本的随机性强。通过“游程”概念,来反映样本分布的特征。

游程检验一般是根据游程个数进行检验。检验的具体方法如下:

(1)假设两总体相互独立,分别从第一、二总体中随机抽取n1、n2个样本,将其混合,并按数值大小排序;

(2)计量游程数量n。根据显著性水平α,根据附表7确定否定域r0.05(n1,n2);

(3)检验零假设。

[例8.4]为了考察两个城市养老院硬件和服务质量,组织专家考察了两个不同的城市,A城随机抽取了18个养老院,B城抽取20个养老院,并记录下这38个养老院的得分。

A城:75 69 58 79 69 68 57 89 79 76

  63 96 85 57 77 76 81 90

B城:78 89 98 95 75 78 46 78 96 60

  78 85 76 84 79 85 86 87 86 70

问两个城市养老院软硬件是否有显著性差异?(α=0.05)

(1)原假设H0:两个城市养老院软硬件无差异,其间差异是随机的。

(2)先将序列A和B分别进行排序,然后混合排序如下,其中带下划线的为B城。

98,96,96,95,90,89,89,87,86,86,85,85,85,84,81,79,79,79,78,78,78,78,77,76,76,76,75,75,70,69,69,68,63,60,58,57,57,46

(3)n=17,而附表7中的临界接受范围为r0.05(18,20)=(13,27)

(4)判断:在接受范围之内,即两个城市的养老院没有本质性差异。

上面通过查表确定检验的临界值,这个方法要求样本容量n1与n2都相当小。当n1与n2较大时(其中一个大于20),直接查表方法就不可行了。不过,对于大样本场合,游程总数R近似服从正态分布,因此,可以用正态分布统计量来确定检验的临界值。R的均值μ与方差σ2公式是:

img328

Z=(R-μ)/σ~N(0,1)              (8.4)

若Z统计量服从标准正态分布,若计算值在(-1.96,1.96)区间外,就在拒绝区间或否定区间,两样本差异大;反之,认为两样本变量无显著性差异,抽样是随机的。

[例8.5]一年52周,某地周一下雨的天数为19天,非下雨为33天,如果按照时间序列可以分30个游程。现以0.05的显著性水平,分析下雨事件是否随机的。

解:n1=33,n2=19,R=30,由此计算出R的均值μ=25.12与方差σ2=10.93。

1.原假设H0:该地下雨事件是随机的

2.计算R的均值μ=25.12与方差σ2=10.93

3.计算出检验统计量:Z=(R-μ)/σ=(30-25.12)/3.31=1.48<1.96

4.临界值Zα/2=Z0.05=1.96

5.结论:|z|<Zα/2,没有足够证据拒绝原假设

具体参考:Mario F.Triola.初级统计学.刘新立,译.北京:清华大学出版社,2004:642.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈