首页 百科知识 掌握抽样推断基础知识

掌握抽样推断基础知识

时间:2022-08-23 百科知识 版权反馈
【摘要】:抽样推断是统计学最重要的方法之一,它广泛应用于自然、社会、经济研究等诸多领域。对于无限总体,统计上无法进行全面调查了解,因而只有借助于抽样推断的方法来认识总体的数量特征。抽样推断所面临的问题是对总体的数量特征不了解或了解很少,而且需要利用有限的样本信息对它进行估计和判断,以达到对总体数量特征的认识。抽样推断在由样本资料推断总体资料时,包括以下两方面内容。

(一)抽样推断的含义

抽样推断是按照随机原则,从总体中抽出一部分单位作为样本,对样本进行详细的调查登记,并计算出样本指标数值,然后根据样本指标数值对总体的数量特征(总体指标数值)作出具有一定可靠程度的估计和判断的一种统计分析方法。

在现实生活中,我们要认识总体的数量特征,经常会遇到无法(或没必要)对总体中的所有单位进行全面调查的情况。例如,商品市场需求量、城市居民家庭收支情况、城乡居民的电视收视率以及民意测验,等等,都很难对每个单位进行观察登记,只能组织抽样调查,取得部分单位的实际资料,以此来估计和判断总体的数量特征,以达到对现象总体的认识。又如,对某厂生产的10 000只灯泡进行平均耐用时数的检验就不能采用全面调查方法,因为检验之后灯泡就报废了,所以只能采用抽样推断的方法,从全部灯泡中随机抽出一部分灯泡进行调查,然后根据这部分灯泡的平均耐用时数,对全部灯泡的平均耐用时数作出具有一定可靠程度的估计或推断。

(二)抽样推断的特点

1. 抽样推断是由部分推算整体的一种认识方法

抽样调查是一种非全面调查,但调查的目的并不在于了解部分单位的情况,而只是作为一种手段,最终要认识总体的数量特征。抽样推断原理解决了这一问题,它科学地论证了样本指标与相应的总体指标之间存在着内在的联系,两者的误差的分布也是有规律可循的,并提出一套利用抽样调查的部分信息来推断总体数量特征的方法。这就大大提高了统计分析的认识能力,为信息采集和开发开辟了一条崭新的途径。

2. 抽样推断是建立在随机取样的基础上的

随机原则就是总体中样本单位的中选或不中选,不受客观因素的影响,每一单位都有相等的中选可能性。把抽样推断建立在随机样本的基础上,才可能事先掌握各种样本出现的可能性大小,提供样本指标数值的分布情况,计算样本指标的抽样平均误差,同时估计样本指标与总体指标之间抽样误差不超过一定范围的概率保证程度。只有坚持抽样的随机原则,抽样推断才可能利用概率论原理来研究样本指标与总体指标的关系,确定优良估计标准,为寻求更有效的抽样组织形式建立科学的理论基础。

3. 抽样推断是运用概率估计的方法

利用样本指标来估计总体指标,从数学上来讲是运用了不确定的概率估计法,而不是确定的数学分析方法。抽样推断原则上把由样本观察值所决定的样本指标看作随机变量,在实践中往往只抽取一个样本,并以样本指标数值为基础估计相应总体指标数值,接着需要解决的问题便是用这样估计的总体指标数值,其可靠程度究竟有多大,这就是概率估计所要解决的问题。

4. 抽样推断的误差可以事先计算并加以控制

以样本指标估计相应的总体指标虽然存在一定的误差,但它与其他统计估算不同,抽样误差范围可以事先通过有关资料加以计算,并且可以采取必要的抽样组织形式或者方法来进行控制,以保证抽样推断的结果达到一定的可靠程度。也可以这样说,抽样调查就是根据事先给定的允许误差范围或者可靠程度进行设计的,这些都是其他估算方法办不到的。

(三)抽样推断的作用

抽样推断是统计学最重要的方法之一,它广泛应用于自然、社会、经济研究等诸多领域。在社会主义市场经济条件下,它将发挥越来越重要的作用。抽样推断的作用主要表现在以下几个方面:

(1)在实际工作中,由于受客观条件或环境的限制,往往不可能或没必要搜集总体的全面资料,只可能或只需要利用样本资料推断总体的数量特征,这样,既可以提高工作效率,也可以节约工作成本。对于无限总体,统计上无法进行全面调查了解,因而只有借助于抽样推断的方法来认识总体的数量特征。如要了解水库中的鱼苗数、森林的木材积蓄量等,适宜采用抽样调查进行推断。虽然有些总体是有限的,但是要了解其数量特征是没有必要开展全面调查的,这时在抽样调查基础上进行抽样估计,既可以达到研究目的,又可以节约研究时间和开支。如要了解居民对主要耐用消费品的需求量、粮食平均亩产等,同样适宜采用抽样调查进行推断。

(2)许多产品的例行质量检查是带有破坏性的或消耗性的。如灯泡寿命试验要一直长期点亮直到烧毁,这是破坏性的试验;烟、酒的质量品尝均属消耗性质量检验。对这些总体都无法进行全面调查。

(3)对全面调查的资料进行评价与修正。如我国人口普查规定,在人口普查工作完毕后,还要按照规定的抽样方法抽取若干地区的人口进行复查。用抽样调查的资料,计算人口全面调查的差错率,再根据这个比率去修正普查数据,从而保证人口调查资料的质量,使调查资料更为准确,更接近于实际的数值。

(4)对工业生产过程进行质量控制。对于成批或大量连续生产的产品生产过程,通过抽样方法可以及时提供有关产品质量信息,分析各种可能的原因,以便采取措施,排除障碍,使生产过程保持正常,从而起到对生产过程进行质量控制的作用。

抽样推断所面临的问题是对总体的数量特征不了解或了解很少,而且需要利用有限的样本信息对它进行估计和判断,以达到对总体数量特征的认识。抽样推断在由样本资料推断总体资料时,包括以下两方面内容。

(一)总体参数的估计

当我们不知道总体的数量特征时,根据样本资料对其水平、结构、规模等数量特征进行估计的方法称为总体参数的估计。

具体地讲,总体参数的估计是根据随机抽取的部分单位的特性来对总体的分布函数、分布参数或数字特征等进行推测估算的过程。它是统计推断的中心内容,其基本思想是对不同的估计问题构造不同的函数,来反映部分单位与总体之间的主要关系信息,并舍弃无关的次要部分,利用其主要关系来对总体作出推算和分析。

(二)总体参数的假设检验

当我们对总体的变化情况不了解时,可先对总体的状况作出某种假设,然后再根据抽样推断的原理,通过样本资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍,这种推断方法称为总体参数的假设检验。

具体地讲,假设检验是指根据我们的经验或不成熟的认识,在对总体的有关分布函数、分布参数或数字特征等信息作出某种假设的前提下,为了确定该假设的正确性,而自总体中随机抽取部分单位,利用部分与总体间的关系来对所提出的假设作出判断,以决定是否接受该假设的过程。

(一)全及总体和抽样总体

在抽样调查中有两种不同的总体,即全及总体和抽样总体。

1. 全及总体

全及总体简称总体,是指所要认识对象的全体,是由具有某些共同性质的许多单位组成的集合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工即构成全及总体。我们要研究某乡粮食亩产水平,则该乡的全部粮食播种面积就是全及总体。

全及总体按照总体单位标志性质的不同,可以分为变量总体和属性总体两类。构成变量总体的各个单位可以用一定的数量标志加以计量。例如,要了解居民的收入水平,每个居民的“收入”就是一个数量标志,它反映了各个居民收入方面的数量特征。构成属性总体的各个单位是用一定的是非标志加以描述的。例如,要研究织布厂1 000台织布机的质量状况,每台织布机的“质量”就是一个是非标志,其表现一般用“完好”和“不完好”等文字加以描述。区分变量总体和属性总体是很重要的,由于总体不同,认识这一总体的方法也就不同。

通常全及总体的单位数用大写的英文字母N来表示。作为全及总体,单位数N即使有限,但也很大,大到几千、几万、几十万、几百万。

2. 抽样总体

抽样总体简称样本,是从全及总体中随机抽取出来的一部分单位所组成的集合体。抽样总体的单位数通常用小写英文字母n表示。对于全及总体单位数N来说,n是个很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本,而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样调查的一个特点。

如果说全及总体是唯一确定的,那么,抽样总体就完全不是这样。从一个全及总体中可以抽取很多个抽样总体,全部样本的可能数目与样本容量和抽样方法有关。不同的样本容量和取样方法,样本的可能数目有很大的差别。随机抽样本身是一种手段,目的在于对总体作出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少,它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以认真地研究。总体与样本的关系如图7-1所示。

图7-1 总体与样本的不同性质

(二)全及指标和抽样指标

1. 全及指标

全及指标是指根据全及总体各个单位的标志值或标志特征计算的,反映总体某一方面特征或属性的综合指标。由于全及总体是唯一确定的,因而全及指标数值也是唯一确定的。

不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各单位的标志可以用数量来表示,所以可以直接计算总体平均数,用大写英文字母245-4表示。

设总体有N个单位,各单位变量值为X1,X2,…,XN,则:

对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定的文字加以描述,所以就应该计算结构相对指标,称为总体成数,用大写英文字母P表示,它说明具有某种属性的单位数在总体中所占的比重。变量总体也可以计算成数,即在所规定的某变量值以上或以下的总体单位数的比重,视同具有或不具有某种属性的单位数的比重。

设总体N个单位中,有N1个单位具有某种属性,N0个单位不具有该种属性,N1+N0=N,P为总体中具有某种属性的单位数所占的比重,Q为不具有该种属性的单位数所占的比重,则总体成数为:

此外,全及指标及总体方差σ2和总体标准差σ,它们都是测量总体标志值离散程度的指标。

对于变量总体,200

对于属性总体,成数方差σ2=P1-P,成数标准差200-2a,是用来反映属性总体是非标志变异程度的指标。

2. 抽样指标

抽样指标是指由抽样总体各个单位标志值或标志特征计算的,反映抽样总体某一方面特征或属性的综合指标。与全及指标相对应,抽样指标包括抽样平均数200-3,抽样成数p,抽样标准差s,抽样方差s2,抽样修正标准差s*和抽样修正方差200-4,等等。其中抽样平均数和抽样成数用小写英文字母表示,以示区别。

设抽样有n个单位,各单位变量值为x1,x2,…,xn,则抽样平均数为:

设抽样总体n个单位中有n1个单位具有某种属性,n0个单位不具有该种属性,n1+n0=n,p为样本中具有某种属性的单位数所占的比重,q为不具有该种属性的单位数所占的比重,则抽样成数为:

由于从一个全及总体中可以抽出许多个样本,样本不同,抽样指标的数值也就可能不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本变量的函数,它本身是随机变量。

(三)样本容量和样本个数

样本容量和样本个数是两个有联系但又完全不同的概念。

1. 样本容量

样本容量是指一个样本所包含的单位数,通常用小写英文字母n表示。一个样本应该包含多少单位最合适,是抽样设计必须认真考虑的问题,必须结合调查任务的要求、总体标志值的变异情况以及抽样方法等多方面因素综合考虑。样本容量的大小不但关系到抽样调查的效果,而且关系到抽样方法的应用。通常将容量不少于30个的样本称为大样本,而不及30个的样本称为小样本。社会经济统计的抽样调查多属于大样本调查。

2. 样本个数

从总体N个单位中随机抽选n个单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是n个总体单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单位的排列组合总数,称为样本个数或者样本的可能数目,常用小写英文字母k表示。从一个总体中究竟可以抽取多少个样本,是与样本容量以及抽样方法等多个因素有关系的,是一个比较复杂的问题。一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布。而统计量的分布又是抽样推断的基础。虽然在实践上只抽取个别或少数样本,但要判断所取样本的可能性就必须联系到全部可能样本数目所形成的分布。

(四)重复抽样和不重复抽样

重复抽样和不重复抽样是两种具体抽取样本单位的方法。

1. 重复抽样

重复抽样,又称有放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本时,每次抽中的单位经登记其有关标志表现后又放回总体中重新参加下一次抽选的抽样方法。每次从总体中抽取一个单位,可看作是一次试验,连续进行n次试验就构成了一个样本。因此,重复抽样的样本是经n次相互独立的连续试验形成的,每次试验均是在相同的条件下完全按照随机原则进行的。

例7-1 假设总体有A,B,C,D,E五个单位,现随机重复抽取2个单位组成样本,求样本个数(N=5,n=2)。

第一次抽取可能结果:5(抽后放回);

第二次抽取可能结果:5。

则样本个数为:

k=5×5=25(个)

即:

AA AB AC AD AE

BA BB BC BD BE

CA CB CC CD CE

DA DB DC DD DE

AA EB EC ED EE

重复抽样的特点:

(1)在n次抽样中,总体每个单位在各次抽样中被抽取的概率都相同;

(2)共可组成k=Nn个样本,每个样本在各次抽样中被抽取的概率都相同。

例7-2 假设总体有A,B,C,D,E五个单位,现随机重复抽取3个单位组成样本,求样本个数(N=5,n=3)。

则样本个数为:

k=5×5×5=125(个)

2. 不重复抽样

不重复抽样,又称无放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本时,每次抽中的单位登记其有关标志表现后不再放回总体中参加下一次抽选的抽样方法。经过连续n次不重复抽选单位构成样本,实质上相当于一次性同时从总体N个单位中抽出n个构成样本,上一次的抽选结果会直接影响到下一次抽选,因此,不重复抽样的样本是经n次相互联系的连续试验形成的。

例7-3 假设总体有A,B,C,D,E五个单位,现随机不重复抽取2个单位组成样本,求样本个数(N=5,n=2)。

第一次抽取:5(抽后不放回);

第二次抽取:5-1。

则样本个数为:

k=5×(5-1)=5×4=20(个)

即:

— AB AC AD AE

BA — BC BD BE

CA CB — CD CE

DA DB DC — DE

AA EB EC ED —

不重复抽样的特点:

(1)在抽样总体n个单位中,第一个是依不相同的概率被抽中的。

例7-4 假设总体有A,B,C,D,E五个单位,现随机不重复抽取3个单位组成样本,求样本个数(N=5,n=3)。

则样本个数为:

k=5×(5-1)×(5-2)=5×4×3=60(个)

(五)随机变量和随机变量的特征值

1. 随机变量

在数学中,将根据试验结果取什么值的变量称为随机变量。在统计学中,习惯上将随样本的随机性而体现出随机性的样本单位的变量称为随机变量。在抽样推断中,在样本没有形成之前,样本各单位的标志值x1,x2,…,xn,及各抽样指标245-2,p,s,s2,s*245-3,都属于随机变量。随机变量的某一确定的变量值在一次试验或一次抽样中出现的可能性大小称为该变量值在一次试验或一次抽样中出现的概率。

2. 随机变量的数学期望

随机变量的数学期望是指随机变量的所有可能取值以概率为权数的加权算术平均数。通常用E(X)或245-4表示。

其中,f(X)——连续型随机变量的概念密度函数。

3. 随机变量的方差

随机变量的方差也就是其标准差的平方,是随机变量的所有可能取值与其数学期望离差平方的数学期望,常用D(X)或σ2表示。

(六)正态分布

正态分布是最常用的连续型随机变量的概率分布,它的特点是随机变量在其平均值附近的概率分配较多,而在远离平均值的地方概率分配很少。

正态分布的分布函数的一般形式为:

式中,246-2——正态分布随机变量的概率密度函数;

246-3,σ2——正态分布随机变量的数学期望与方差。

上述分布函数与概率密度函数的图形分别如图7-2和图7-3所示。

如果β服从数学期望为246-6,方差为σ2的正态分布,则简记为246-7,σ2)。当246-8或者σ2≠1时,正态分布称为普通正态分布;当246-8且σ2≠1,正态分布称为标准正态分布,记为 N(0,1)。普通正态分布可以标准化,即:

正态分布有如下特征:

(1)正态分布的概率密度函数曲线为一对称的钟形曲线,对称线是246-11

(2)概率密度函数曲线与X轴之间所围成的面积等于1。

(3)在246-12附近时,正态分布的概率密度函数值较大;当远离246-12时,函数值较小。

(4)当X趋于无穷时,概率密度函数曲线以X轴为渐近线。

(5)概率密度函数曲线有两个拐点:246-13,在这两个拐点之间,曲线向上凸,两个拐点之外,曲线向下凸。

(6)概率密度函数曲线的凸起程度由随机变量的方差σ2决定,σ2越大,曲线越低;相反就越高。

抽样推断是依据样本对总体的推算,因此,统计量与被估算的总体指标之间的关系就是推算的关键所在。而两者的关系主要通过统计量的分布来反映,且因样本容量的大小而有所区别。

(一)大样本统计量的推断依据——大数定律

大数定律是指在随机试验中,虽然每次出现的结果不同,但是大量重复试验结果的平均值却几乎总是接近于某个确定的值,其原因是:在大量试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。

大数定律有若干个表现形式,这里仅介绍其中常用的两个重要定律。

1. 契比晓夫大数定律

设x1,x2,…,xn是一列两两相互独立且服从同一分布的随机变量,它们存在有限的数学期望247和方差σ2,则对任意小的正数ε,有:

该定律的含义是:当n很大时,服从同一分布的随机变量x1,x2,…,xn的算术平均数247-3将依概率1接近于这些随机变量的数学期望。

将该定律应用于抽样推断,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数,从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

2. 贝努利大数定律

设μn是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为p,则对任意正数ε,有:

该定律是契比晓夫大数定律的特例,其含义是:当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。

在抽样推断中,用样本成数去估计总体成数,其理论依据即在于此。

(二)大样本统计量的分布律——中心极限定理

虽然大数定律揭示了大量随机变量的平均结果具有稳定性的规律,但没有涉及随机变量的分布问题。而中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这里仅介绍其中两个常用定理。

1. 辛钦中心极限定理

2. 德莫佛——拉普拉斯中心极限定理

该定理是辛钦中心极限定理的特例。在抽样推断中,不论总体服从什么分布,只要n充分大,那么频率就近似服从正态分布。

(三)小样本统计量的分布律

1. 小样本均值的分布律

1)t分布

t分布是英国统计学家戈塞特(1876—1937)于20世纪初首先发现的,并以笔名“学生”发表了该研究成果,故称之为学生氏分布。t分布形态上与正态分布很类似,是关于t=0的对称分布,其密度曲线与正态分布相比,一般中心部分比正态分布低、两边比正态分布高,且取值也在-∞到+∞之间。对于不同的样本容量(确切说应该是不同的自由度)都有相应的t分布,并且当样本容量逐渐增大到一定量时,t分布就近似于标准正态分布N(0,1)。故通常t分布表只列出自由度为1~30的概率,若自由度大于30,则可应用正态分布。因此,在推断平均数时,大样本与小样本的界限一般为30。

这里所说的自由度,通俗地说是能够自由取值的变量的数目。如容量为n的样本,在任何统计量都没有确定时,其自由度也为n;若在样本均值已定的前提下,该样本中将有n-1个单位的标志值是可以任意选定的,而由均值限定的第n个单位的标志值就不能任意选定了,所以其自由度为n-1。

在-∞<t<+∞范围内,t分布的概率及其临界值已编制成表,只要知道置信度(即概率)和自由度,便可查出相应的t分布临界值,因其与标准正态分布很类似,所以具体查表方法也与正态分布类似。

2)小样本均值的分布律

2. 小样本方差的分布律

1)卡方分布

设随机变量x1,x2,…,xn皆服从N(0,1),且相互独立,则随机变量249-2所服从的分布称为χ2分布,并记为X~χ2(n),其中,参数n为自由度。卡方分布是个非对称分布,随着自由度的增大,卡方分布接近于正态分布。

2)小样本方差的分布律

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈