首页 百科知识 抽样的概念

抽样的概念

时间:2022-06-17 百科知识 版权反馈
【摘要】:第一节 抽样的概念一、抽样调查一般来说,对千差万别的个体所组成的总体进行全面的、普遍的调查叫做普查。抽样调查是社会经济领域中应用最广泛的统计调查方法。统计调查都是有时间限制的,尤其是市场调查,对时间的要求更加严格。编制抽样单位的目录,称为抽样框。

第一节 抽样的概念

一、抽样调查

一般来说,对千差万别的个体所组成的总体进行全面的、普遍的调查叫做普查。但是在实际的研究中,由于受到各种条件的限制,普查是非常困难的,往往代之以抽样调查。抽样调查是从研究对象的总体中选择一部分代表加以调查,然后用所得的结果推论和说明总体特征。这种从总体中选择一部分代表的过程就是抽样。举例来讲,我们要进行北京市居民耐用消费品的拥有及品牌选择状况的研究,如果用普查的方式,当然可以准确而且完全地了解基本情况,但是,普查的方式所需经费大、时间长,基本上不可能,也不必要,往往代之以抽样调查,就是从北京市的居民户中随机抽取一定数量的样本,进行调查,这样既可以节省经费,同时又可以反映总体的特征。抽样调查是社会经济领域中应用最广泛的统计调查方法。

统计的目的在于研究总体的各种特征。例如,单变量描述中的关于集中趋势分析的参数如均值、中位数、众数等和关于离散趋势分析的参数如异众比例、标准差、四分位差等都是在总体资料的基础上进行的分析,参数是总体的固定值,这种在总体资料(普查资料)基础上进行的统计分析属于总体统计的范畴。对总体资料的统计不存在推论、推断、估计的问题,是什么就是什么,是多少就是多少。例如,某一国家的人口普查得出的人口性别比为100∶108,那么就可以确定地讲这一国家的人口性别比为100∶108。通常用希腊字母代表总体特征,如用“μ”代表总体均值,用“σ”代表总体的标准差等。

但是,我们知道并不是所有社会现象的资料都是普查资料,很多情况下我们要通过对总体中的一部分进行分析来解释总体特征,这种从总体中选取一部分的方法叫做抽样(前面已经讲到),对抽样资料的统计分析叫做推论统计。前面提到的单变量描述中的关于集中趋势分析的一些概念如均值、中位数、众数等和关于离散趋势分析的概念如异众比例、标准差、四分位差在推论统计中也可以使用,但它们不再叫做参数,而是叫做统计量。统计量与参数不同,统计量对总体而言不是固定的,不同样本的相同的统计量可能是不同的,比如上例,某一国家的人口抽样调查得出的人口性别比为100∶108,那么并不能确定地讲这一国家的人口性别比为100∶108,如果在同一时间、同一区域进行同样规模和内容的另一次抽样调查得出的人口性别比可能是100∶110。所以依据抽样调查的结果计算出的各种统计量只能作为对总体情况的推断。通常用罗马字母代表样本特征,如用“X”代表样本均值,用“S”代表样本的标准差等。

普查(总体统计)由于受到人、财、物和时间的限制不可能有大量的资料,因此大量的社会调查都是抽样调查,推论统计在统计学中异常重要。与其他统计调查方法相比,抽样调查具有很多优点,包括:

1.节省经费。通常抽样调查的单位只是总体中的一小部分,是几分之一、十分之一、百分之一,甚至千分之一或万分之一,相对于普查而言可以大大节省经费、工作量和人力。

2.时效性强。统计调查都是有时间限制的,尤其是市场调查,对时间的要求更加严格。由于抽样调查的样本单位少,操作方便,使得其优点在这个意义上体现得极为明显。

3.准确性高。抽样调查遵循随机原则,可以排除个人主观因素的影响,保证样本的代表性。当然抽样调查与普查的结果会有一定的差别,这种差别叫做抽样误差,但是通过科学的手段可以将误差控制在一定的范围内,同时,普查由于范围广,人力多,使得因为工作环节与层次过多而导致的工作差错也会增多,而抽样调查则可以最大限度地减少这种错误。

那么在什么情况下采用抽样调查呢?

1.在不能也不适宜采用普查方式的情况下,采用抽样调查。比如,我们要了解某品牌汽车的耐碰撞能力,不可能把所有的生产出的汽车全都碰撞一遍,只能采用抽样的方法,在已经生产出的汽车中随机抽取一部车或者几部车进行检验。

2.在不必采用普查方式的情况下,采用抽样调查。比如,在市场调查中,要研究人们对某一品牌的饮料口味的感觉,仅仅采用抽样调查的方式就可以基本上反映人们对该品牌饮料的喜好程度,而不必让所有人都品尝一遍。

3.在核对和补充普查准确性时,采用抽样调查。例如,抽样调查与普查相结合,可以用定期普查的短表(调查项目较少)与非普查年份的抽样调查的长表(调查项目较多)相结合,既可以在内容上相互补充,又可以在时间上相互衔接。同时,用抽样调查的方法也可以核对普查的质量,比如我国历次人口普查后都要进行差错率的抽样并对普查的结果进行修正。

4.信息的时效性高时,采用抽样调查。例如在激烈的市场竞争中,企业所需的各种各样的市场信息与情报,都有很强的时效性,采用普查的方式不可能也不允许,只有采用抽样调查的方法才能在时间上满足企业的要求。

二、总体与抽样框

总体,通常指所要调查研究对象的全体。在抽样调查中,总体则是能从中抽取样本的那个集合体。由于实际存在的总体与人们抽样时所认识的总体可能不一致,因而在国内,人们认为总体有以下两种概念:全及总体,也称目标总体,即所需要研究说明的全部单位的集合体。不论人们认识与否,所有符合所规定的属性或数量特征的单位全在一起,就构成一个全及总体。全及总体也叫母体,简称总体,是指所要调查对象的全体。总体是由具有某种共同性质的所有单位组成的。例如,如果我们要研究北京市居民户的生活质量,那么北京市所有的居民户就是此次调查的总体;又如,我们要研究中国国有企业的经营状况,那么中国的所有国有企业就是总体。通常总体单位数用英文字母“N”来表示。总体又分为有限总体和无限总体两种。上面所讲的北京市所有的居民户和中国的所有国有企业虽然数量众多,但是有限的,是可以计数的,因此,这种总体是有限总体。反之,我们如果投掷若干骰子,期望得到某些数值,我们可以无限次数地投掷,这样的总体是无限总体。被抽样总体,也称作业总体,即已被人们所掌握了的、能按某一方式排列或给以编号的全体单位的集合体,是抽取样本的依据。由于样本来自被抽样总体,因而抽样推断结论只适用于被抽样总体。

编制抽样单位的目录,称为抽样框。抽样框的范围与被抽样总体一致,但由于抽样单位可大可小,往往根据需要而确定,因而编制抽样框的单位不一定是被抽样总体中的基本单位。在抽样调查实践中,抽样框可以有以下几种形式:

1.名单抽样框,即以名单一览表形式列出总体的所有单位,如职工名单等。

2.区域抽样框,即按地理区域划分并排列出总体的所有单位,如一块土地划分为若干地块单位并编号、一片森林划分为若干区域单位并编号等。

3.时间表抽样框,即按时间顺序排列总体单位,如在流水线生产的产品检验抽样调查中,把一天时间划分为许多抽样时间单位并按先后顺序排列。

在抽样实践中,抽样框的编制往往是很困难的,问题主要在于难以把总体的所有单位都包括在内,或把不应包括的单位包括了进来。因此,可以说,总体是所有样本单位的总和。它一定要具有内容、单位、范围和时间四个因素。抽样框就是总体样本单位的名单。由于在实际操作中,人们对抽样框的收集经常出现漏查等问题,所以区别总体的四个层次是非常必要的。在国外,总体的四个层次是:调查总体、框总体、目标总体和推断总体。为了了解总体的四个层次,我们首先要将抽样中关于总体可能出现的各种问题作一描述。

(一)抽样时可能遇到的问题

在抽样调查中,总体抽样框与实际情况一一对应是最完美的,也是没有问题的。但是,在实际抽样框的编制时,经常出现以下各种情况:

1.遗漏。这种情况是在抽样框的编制过程中,遗漏了某些样本单位,使得这些样本不可能被调查,他们的态度与行为也就不可能在调查中反映出来。在市场调查与社会调查中,这种情况经常出现。比如我们采用多阶段抽样,第一阶段为北京市的居委会名单抽样,这时,由于北京市城市建设速度快,在抽样框编制时,一些新建的居委会没有被纳入抽样框,就会出现此种情况。遗漏的情况也叫做抽样框不完整。

2.一个名单里有两个或多个样本单位。这种情况是在抽样框编制过程中,将两个或多个样本单位用一个名单来代表而出现的问题。这种情况一旦产生,会使得这些样本在实际抽样调查时没有与其他抽样单位同样的中选概率,违背了随机原则。在实际调查过程中,这种情况出现的频率也是很多的。比如我们在进行上海市音像制品调查时,采用门牌号作为抽样单位,结果发现,有一些居委会的一个门牌号中,最多有10多户家庭,迫使我们改变了抽样单位。

3.空缺。这种情况是在抽样框中有样本单位的名单,但是在实际中没有。这种情况如果出现比例较大,会使其他所有的样本的中选概率下降,直接影响样本对总体的推断。在实际调查中,这种情况也是常见的。比如北京市有一些家庭的房子较多,有一些房子出租出去,而租房子的人是外地人,在进行北京市居民调查,采用门牌号作为抽样单位时,这种问题就会体现出来。

4.重复登记。这种情况是一个样本单位在抽样框中登记两次或者以上的情况。出现这种情况会使这些样本的中选概率高于其他样本,从而违背了随机原则。

(二)总体的层次

调查总体,是指实际进行调查时所使用的所有可能被调查的元素的总和。样本能直接反映它们所代表的调查总体的情况。框总体是抽样框所有元素的总和。框总体比调查总体大,因为它包括了在实际调查中,被调查者不在家、拒绝回答、无能力回答等元素的数目。目标总体是调查目标所直接要求的总体元素范畴。目标总体比框总体大,因为框总体可能有漏查的数量。

从调查总体,到框总体,再到用来确定样本设计的目标总体,是一个递进的过程,这三个总体在概念上都有专门的含义,各不相同。但是我们在实际研究中还经常要根据目标总体推断一些其他的总体。例如,根据一年的调查统计资料,可以推断未来,有时也推断过去;可以用一个或几个城市的统计数据推断全国城市的情况,等等。那么这时总体就是推断总体。为了弥补目标总体到推断总体的差距,一般经常使用一些模型,这里就不再一一介绍了。

三、样本

样本总体,又叫子样,简称样本。它是从总体中抽取出来进行调查的一部分单位,是指从被抽样总体中抽取并要对其进行调查或观察的部分单位所组成的集合体。样本是总体的缩影,是总体的代表。以样本的调查或观察结果来推断总体的数量特征,是抽样调查的目的。如果说,总体是所要研究的对象,那么样本则是所要观察的对象。很显然,样本所包含的单位数是有限的,通常只是总体中的一小部分。例如,在北京市的所有居民户(总体)中抽取1000户来进行生活质量调查,那么这些户就组成了一个样本。样本的单位数通常用英文字母n来表示。对比总体单位数N来说,n是一个很小的数,它可以是N的几十分之一,几百分之一,甚至几万分之一。一般来讲,样本单位数达到或超过30个即为大样本,小于30个称为小样本。在大多数的社会调查中,样本单位数为大样本。

样本的大小,即样本单位数,称为样本容量,用n表示。总体数量用N来表示,n与N之比称为抽样比。

对于一个调查来讲,总体是惟一的。但是,样本不是,一个总体可以抽取很多个样本。样本的可能个数,既与样本的容量大小有关,又与抽样的方法有关。我们知道,样本是用来代表总体的,因此,样本容量要多大才合适,要怎样抽取样本,样本的数目可能有多少,分布如何,都关系到样本代表性的大小。这是抽样调查研究的重要问题,也是我们下面要详细讨论的。

四、调查单位

抽样调查要通过对样本单位的观察或调查来取得有关数据或记录有关特征,这些单位称之为调查单位。与此同时,还有据以作为抽样之用的中介单位,称为抽样单位。有时,抽样单位与调查单位同一,如居民家庭既作为居民家庭调查的抽样单位,也作为调查单位。有时,一个抽样单位包含多个调查单位,如在居民身体状况调查中,调查单位是居民个人,若以居民家庭作为抽样单位,则每个抽样单位都可能包含若干个调查单位。有时则是一个调查单位可能包含多个抽样单位,如要调查某企业职工的家庭情况,抽样单位是职工,调查单位是家庭,其中可能有两位或更多位职工属于同一家庭。

五、全及指标和抽样指标

1.全及指标。

全及指标是根据总体各个单位的标志值或标志特征计算出来的,反映的是总体某种属性的综合指标。由于总体是惟一确定的,所以根据总体计算的全及指标也是惟一确定的。例如,我们要了解中国再婚的比例,根据全国人口普查资料(总体)计算得到为0.1%,这个值是准确的也是惟一的。

2.抽样指标。

抽样指标,是由样本各个单位的标志特征计算出的综合指标。即使相对于同一个总体,采用同样的抽样方法,所得到的抽样指标都是有差异的。例如,我们要了解中国再婚的比例,根据全国千分之一人口抽样调查资料(样本)计算出的再婚比例为0.1%,这个值是不准确的,也不是惟一的,同样采用全国千分之一人口抽样调查的理论与方法再进行一次调查得到的比例可能就是0.11%。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈