总体均值和成数的假设检验

时间：2023-10-21 百科知识版权反馈

【摘要】：假设检验的另一个重要问题是确定合适的概率分布，可从正态Z分布和t分布中选一种，选择原则和上一章统计推断类似。在假设检验中，先给出一个总体参数的假设，然后抽取样本，检验所做假设的正确性，所要检验的这个假设，往往是虚无假设，称作统计假设H0。这些成人的体温和37.0℃有明显的差异。该例说明，统计检验与总体区间的统计估计是高度一致的。

总体均值和成数的假设检验_社会统计学

第二节　总体均值和成数的假设检验

假设检验的另一个重要问题是确定合适的概率分布，可从正态Z分布和t分布中选一种，选择原则和上一章统计推断类似。当总体方差(或标准差)未知时、总体呈现正态分布时一般采用t分布检验；当总体方差已知时，则采用正态分布检验。样本容量大于30称作大样本，否则称小样本。

一、总体均值的检验

在假设检验中，先给出一个总体参数的假设，然后抽取样本，检验所做假设的正确性，所要检验的这个假设，往往是虚无假设，称作统计假设H₀。在进行研究时，需要根据已有的理论和经验，事先对研究结果做出一种实际希望证实的假设，或称备择假设，记为H₁。

1.总体方差已知，总体为正态分布

来自总体的样本为(X₁，X₂，……X_n)，对于假设H₀:μ=μ₀(样本均值)，在H₀成立的前提下，可建立检验统计量:

2.总体方差已知，总体分布未知，大样本

来自总体的样本为(X₁，X₂，……X_n)，对于假设H₀∶μ=μ₀，在H₀成立的前提下，若样本足够大(n≥30)，可将样本方差替代总体方差，检验统计量为

3.总体方差未知，总体为正态分布

来自总体的样本为(X₁，X₂，……X_n)，对于假设H₀:μ=μ₀，在H₀成立的前提下，有检验统计量:

其中S²是样本方差。

4.总体方差未知，总体分布未知，大样本

来自总体的样本为(X₁，X₂，……X_n)，对于假设H₀:μ=μ₀，在H₀成立的前提下，如果总体分布未知，样本足够大(n≥30)，近似有检验统计量:

［例7.1］某地区居民收入服从正态分布，标准差是30元，根据调查平均收入为2500元。某厂招收了一批农民工，经过短期培训以后上岗工作，现从中随机抽取100人进行调查，发现其平均收入2490元，问农民工经济收入与当地居民经济收入是否有差异?

解:第一步，提出原假设和备择假设是:

H₀∶μ=2500元　　　　H₁∶μ≠2500元

第二步，构造统计量，计算检验统计量的值。

由于总体标准差σ=30元为已知，样本量n=100＞30是大样本，服从N(μ，σx)，于是可计算出Z统计量，样本均值为2490元，总体均值为2500元，于是，可计算出Z统计量:

第三步，确定显著性水平和拒绝域，取默认值α=0.05，查正态分布表，Z=1.96，拒绝区域(－∞，－1.96)或(1.96，∞)。

第四步，判断。由于计算的|Z|=3.33＞1.96，落入拒绝区间，于是拒绝原假设。即农民工的月经济收入与当地居民经济收入存在显著性差异。其二，可以求出Z=－3.33相伴随的概率，将此与0.05进行比较，若小于0.05则拒绝原假设；反之则表示没有足够理由拒绝原假设。

图7.2　标准正态分布的置信区间

［例7.2］某养老院有300张床位，正常入住率为80%，经理进行一项改革，将相关收费降低10%，经过36天试运行，平均入住为265张床位，标准差为51，试以5%的显著性水平评估优惠措施是否有效?

注意:本文想证明的是改革以后的入住床位是否明显高于改革以前的240张。

第一步，建立假设H₀∶μ≤300*80%=240张H₁:μ＞240张

第二步，构造统计量，计算检验统计量的值。

由于总体标准差已知，样本量n=100＞30是大样本，且总体标准差为σ= 30元，为已知，所以服从N(μ，σx)，于是可以计算Z统计量，样本均值为2490元，总体均值为2500元，于是，可计算出Z统计量:

第三步，确定显著性水平和拒绝域，给定显著性水平α=0.05，由于是单边检验，查正态分布表，Z=1.645。

第四步，判断。由于计算的|Z|=2.94＞1.65，落入拒绝区间，于是拒绝原假设。即我们能以95%的把握说，改革以后，入住率的床位数明显多于改革前的情况。当然，可以求出Z=2.94相伴随的概率，将此与0.05进行比较，若小于0.05则拒绝原假设；反之则表示没有足够理由拒绝原假设。结论:改革以后，平均入住的床位明显多于改革前的情况。

需要注意的是，备择假设若取H₁∶μ＜240张，整个结论完全相反。为什么不能取H₁∶μ＜240张呢?主要是本题想证明的是，改革后入住的床位是否明显多于改革前，这就是备择假设。原假设错了以后，整个结论完全相反，尤其是对单侧检验而言。

［例7.3］健康成人的正常体温是37.0℃，而某医院在中午12点时，检测100个成人的体温资料如下，计算发现这100人的平均体温为36.79℃，标准差为0.347℃，问这些成人的体温是否正常?

表7.1　　　　　　　　　　某医院测量的人体体温

若用统计检验的方法，则:

第一步，提出原假设和备择假设是:

H₀∶μ=37.0℃　　　　　　H₁∶μ≠37.0℃

第二步，构造统计量，计算检验统计量的值。

由于总体标准差已知，样本量n=100＞30是大样本，且总体标准差为σ= 0.347℃，为已知，所以服从N(μ，σx)，于是可以计算Z统计量，样本均值为36.79℃，于是可计算出Z统计量:

第三步，确定显著性水平和拒绝域。取默认值α=0.05，查正态分布表，Z=1.96，

第四步，判断。由于计算的Z=6.05＞1.96，落入拒绝区间，于是拒绝原假设。即成人正常体温与37.0℃存在显著性差异。其二，可以求出Z=6.05相伴随的概率0.001，将此与0.05进行比较，由于其小于0.05则拒绝原假设。这些成人的体温和37.0℃有明显的差异。

按照上一章的方法，可以估计到人们体温的均值μ，95%的置信区间36.76℃＜μ＜36.82℃，即不包括37.0℃。该例说明，统计检验与总体区间的统计估计是高度一致的。

二、总体成数的检验

来自总体的样本为(X₁，X₂，……X_n)。其中，各个X_i(i=1，2，…n)仅能取1(“有”或“成功”)和0(“无”或“失败”)两个数值。样本中“成功”或“有”的次数为n₁。根据理论分析，当n达到一定程度时，样本比例ρ₀=n₁/n近似服从正态分布N(ρ，ρ(1－ρ)/n)，其中ρ为总体成数ρ=N₁/ N，ρ(1－ρ)为方差。因此，对于假设H₀:ρ=ρ₀，在H₀成立的前提下，有:

［例7.4］某地区居民月经济收入高于6000元以上的比例为30%，而调查100个外来人口，发现月经济收入6000元以上的有22人，现问外来人口高收入比例与当地人高收入比例是否有差异(α=0.05)?

解:第一步，提出原假设和备择假设是:

虚无假设:H₀∶ρ=30%　　　　　备择假设:H₁∶ρ≠30%

第二步，已知样本比例ρ₀=22%，n=100，构造统计量，计算检验统计量的值

第三步，确定显著性水平0.05和确定临界拒绝域Z_0.025=1.96，拒绝域(－∞，－1.96］和［1.96，∞)，计算Z=－1.746，而在接受区间之内(－1.96，1.96)。

第四步，结论:没有足够的证据推翻原假设，即外来人口高收入比例可能等于当地居民高收入比例。

［例7.5］某社会改革措施，据当地领导说已经获得50%以上居民的支持，某社会调查公司受托调查该措施的社会支持率，公司随机抽取300居民，支持该项政策的居民为140人，问在5%的显著性水平下，该项措施的是否高于50%?

第一步，提出原假设和备择假设是:H₀:ρ≤50%H₁:ρ＞50%

第二步，已知样本比例P=140/300=46.7%，n=300，构造统计量，计算检验统计量的值

第三步，确定显著性水平0.05和确定临界拒绝域Z_0.025=1.96，拒绝域(－∞，－1.645］，计算Z=－1.143，而在接受区间之内(－1.645，∞)。

第四步，结论:没有足够的证据推翻原假设，即该社会改革措施支持率有可能大于50%。

应该注意的是，计算的检验统计量偏大则相应检验概率偏低，则有助于推翻原假设；相反，检验统计量偏小则相应检验概率偏高，则往往不能推翻原假设。其次，统计检验的结论为推翻原假设，或没有足够的证据推翻原假设两种。为什么不直接承认原假设正确呢?因为推翻原假设所犯错误的可能性已经明确，一般设定α(犯第一错误的可能性)为5%；而承认原假设所犯错误的可能性并不明确，β(犯第二错误“以假为真”的可能性)未知，承认原假设并非表示原假设一定对的，仅是目前没有足够的证据推翻原假设而已，原假设仍有可能为错。再次，一般情况下尽可能使用双向检验，对于初学者单向统计检验的假设容易出错。最后，原假设是虚无假设在不同状态有不同的表述内容。在本章中可以表达为，样本与总体均值无显著性差异、样本和总体成数无显著性差异，但也常常表述原假设为，样本分布和总体分布无差异。在相关分析中原假设被认为，总体相关系数与零值无显著性差异(即总体不相关)。在卡方检验中原假设被认为，纵向变量与横向变量两个变量相互独立。

三、两个总体平均数是否相等的假设检验

双总体均值是否相等(μ₁=μ₂)的假设检验与上一章讲的双总体均数区间估计是密切联系的。从两个被研究的总体中，各随机抽取若干样本，通过这两个样本平均数之间的差异，分析和检验两个总体平均数是否存在显著性差异。其具体分两个正态总体、方差未知但大致相等；两个正态总体、方差未知但不等；两个大样本、非正态总体。参考表6.3，正态总体、方差未知应用t检验；非正态总体大样本可作为正态分布检验。下面予以说明。

(一)两个正态总体、方差未知但大致相等

两个正态总体: