抽样调查样本可控性因素分析

时间：2022-04-22 理论教育版权反馈

【摘要】：一、抽样的基本概念抽样是一种选择调查对象的程序和方法。这一理论指出，遵循随机原则的概率抽样可以保证抽选出代表性较高的样本，并能够计算抽样误差的大小。（二）抽样的基本术语抽样中常用到的概念与术语有总体与样本、个体与抽样单位、研究总体与调查总体、抽样框、参数与统计量、抽样误差与非抽样误差、置信度与置信区间，下面分别进行介绍。

一、抽样的基本概念

抽样是一种选择调查对象的程序和方法。一般来说，对于由千差万别的个体所组成的总体，如果能做普查，即将总体中所有个体无一例外地全部作为调查对象进行调查，其所得的结果应该是最具有普遍意义，最能反映总体特征的。但是在很多情况下，实施普查非常困难。例如，中央电视台想调查全国电视观众对“焦点访谈”节目的收看情况，由于“全国电视观众”这一总体太大，而且界定不清，很难实施普查。在这种情形下通常代之以抽样调查，即从研究对象的总体中选择一部分代表进行调查，然后用从样本中所得的结果推论总体的特征。这种由总体中选取一部分代表的过程就是抽样，所选取的这一部分代表称为样本。

（一）抽样调查对调查对象的要求

我们已经知道，与普查相比，抽样调查具有下列的优越性：

1.调查费用较低

由于抽样调查的对象仅是总体的一小部分，因此，所需要的费用比普查要少得多。

2.速度快

这也是由于抽样调查的对象仅是总体的一小部分，显然要比调查全部研究对象省时得多。在为了决策需要而实施的媒介调查中，时间因素往往是十分重要的，时机往往是稍纵即逝的，所以需要及时了解情况，随时掌握信息，抽样调查在这方面具有很大的优越性。

3.可获得内容丰富的资料

为了节约费用，减少工作量，以及适合各地区的情况，普查通常只能了解少量项目。抽样调查因调查对象的数目远较普查少，因此，可以设置较多和较复杂的调查项目，并能集中时间和精力做详细的分析。

4.准确性高

普查的实施需要大批调查员，这些调查员有许多是缺乏经验和专业训练的，这往往会降低调查质量。抽样调查则可以使用少量素质较高的工作人员并对他们进行充分的训练，还可以在调查实施中进行更严格的质量监督。因此，与普查相比，抽样调查的资料更准确、更可靠。

不难看出，抽样调查之所以优于普查，其主要原因在于抽样调查的调查对象数目远较普查的数目少，它只是作为整体的一小部分。但是，这些优越性的成立必须依据下述假设：

（1）部分是含于整体之中的。

（2）更重要的是，部分与整体具有同样的特征、规律、相互关系及变化过程。

（3）部分能够为研究者提供一个有关整体的状态、态度、意见和行为的更加清晰的脉络。

如果没有这几个前提假设，即使抽样调查再省钱、省力，由于其无法获得对总体状况、特征的认识和了解，它也是无意义的，而且也不会发展为目前各个领域调查研究的主流方法。由此可见，抽样调查的成功首先要求所选取的样本能够代表总体。所谓代表，也就是说，抽取出来的样本从调查所要研究的总体特征来看，能够再现总体的结构。但媒介调查的所有研究对象中，任何个体之间都是存在差异的，所以，任何的部分都无法完全代替总体。因此，无论采取什么样的选取样本的方法，无论做得多么仔细，没有也不可能抽出毫无偏差地代表总体的所有特点的样本。也就是说，在用样本来概括和说明总体时必然会存在误差，这一误差的大小可以反映出样本代表性的高低。误差大，样本的代表性就小；误差小，样本的代表性就高。

对于研究人员来说，如果想要排除样本对总体代表的不完全性，只能花费巨大的人、财、物力进行普查，而即使是普查，由于在进行中受到各种人为因素的影响，结果也不可能是完全精确的。因此，完全没有误差的调查是不存在的。抽样要解决的重要问题不是怎样消除误差，而是能知道误差的大小以及如何控制它，并依据结果事先要求的精确程度抽取出相应的样本。也就是说，抽样调查的关键在于如何判断一个样本误差的大小及怎样才能抽到一个符合精度要求的样本。如果无法从理论上和技术上实际抽出这样的样本，那么样本推论总体就毫无意义。

直到20世纪数理统计学中抽样理论的建立，上述两个问题才获得了有效的解决。这一理论指出，遵循随机原则的概率抽样可以保证抽选出代表性较高的样本，并能够计算抽样误差的大小。

（二）抽样的基本术语

抽样中常用到的概念与术语有总体与样本、个体与抽样单位、研究总体与调查总体、抽样框、参数与统计量、抽样误差与非抽样误差、置信度与置信区间，下面分别进行介绍。

1.总体与样本

总体与样本是抽样调查中最基本的概念。总体指的是所研究对象的全体。例如，在全国电视观众调查中，全国可以收看电视地区所有拥有电视机的家庭中有收视能力的人就构成了研究的总体。

在调查研究过程中，按某种方法从总体中抽取部分个体（单位），这部分个体就构成了调查的样本。例如，在全国电视观众调查中，按照设计的抽样方案抽取到的需要调查的人即构成了样本。

2.个体与抽样单位

个体也叫元素，是收集信息的基本单位，即分析单位。个体可以是个人，也可以是家庭、组织等。个体与抽样单位在有些研究中是相同的。但是在进行实际抽样时，抽样单位往往是多层次的。例如，要在全国抽取一部分城镇家庭进行调查，可先抽取若干个省，然后在一个省抽取若干个城镇，最后从这些城镇中抽取家庭样本。这时抽样单位分别是省、城镇、家庭三种，分别称为初级抽样单位，次级抽样单位和最终抽样单位。

3.研究总体与调查总体

研究总体是理论上所有的个体的集合。例如，在全国电视观众调查中，全国可以收看电视地区所有拥有电视机的家庭中有收视能力的人就构成了研究总体。如果未加界定，有收视能力的人只是一个模糊的整体，抽样还不能进行。如果把有收视能力的人界定为4岁以上有语言表达能力的人后，才成为可用于抽样的调查总体。实际上，抽样时所用的总体有时不是严格的研究总体，而是调查总体。调查总体是研究者实际抽取样本的个体的集合体。一般地说，样本只能推论调查总体而不是研究总体。但有的研究其调查总体和研究总体是一致的。

4.抽样框

抽样框指的是包含所有抽样单元的详细名单、地图或其他形式的资料。在抽样框中，每个抽样单元都有自己的对应位置或顺序，这一般通过编号来实现。理想的抽样框应该是完备的，抽样框中的抽样单元既没有重复，也没有遗漏。例如，在全国抽取一部分城镇家庭的例子中，有省、城镇、家庭三个层次的抽样单位，则抽样框也应有三个，全部省的名单，抽中省的所有城镇的名单，抽中城镇中所有家庭的名单。

5.参数与统计量

参数也叫做总体指标或调查的目标量，是用来描述总体特征的一些指标，它是研究所要了解的最终目标。它是未知的，需要通过样本数据进行估计，但它是一个常数。

统计量则是关于样本中某一变量的描述。常用的参数和统计量有平均数、百分比、标准差、相关系数等。抽样调查的重要内容之一就是通过样本统计量推算总体的参数，从而达到由部分推知总体的目的。

6.抽样误差与非抽样误差

由于总体中个体的差异性，在用样本的统计量去推断总体的参数时，总会存在着误差，这种误差就是抽样误差。抽样误差是可以根据统计理论估计出来并加以控制的。抽样误差是衡量样本代表性强弱的标准，它主要取决于总体中个体的差异性和样本中所含的个体的多少。一般地说，样本所含个体越多，代表性就越强，抽样误差就越小；样本所含个体越少，代表性就越弱，抽样误差就越大。总体中个体的差异程度越高，含同样数目的样本代表性越弱，抽样误差就越大；反之，样本的代表性就越强，抽样误差就越小。

需要指出的是，在抽样过程中因各种人为的原因违反随机原则而产生的误差并不是抽样误差，而是非抽样误差。非抽样误差不仅存在于抽样环节中，而且存在于调查的全过程，它指的是在调查设计、抽样实施、数据收集和数据分析过程中，由于人为的差错所造成的误差。这一类的误差是无法测量的，只能通过一定的措施尽量减少它们的出现。

7.置信度与置信区间

置信度（置信水平）是估计抽样误差时必须用到的重要概念。置信度是指总体参数落在用样本统计量所构造的某一区间内的概率；而置信区间是指在某一置信度下，样本统计量与总体参数之间的误差范围。例如，从某市的所有新闻记者中抽取100人为样本以估计记者的平均收入，并计算样本的平均收入为3000元。根据抽样误差对总体进行估计，总体的平均收入在2800～3200元这一范围的可能性是95%（误差为±200元），或者说在95%的把握下，总体的平均收入会在2800～3200元这一范围内。本例中95%就是置信度，2800～3200元就是在95%置信度下计算的总体平均收入的置信区间。

（三）抽样的基本程序

抽样设计的主要内容和基本步骤主要有如下几项：

1.明确研究目的，确定研究所要估计的主要总体参数

抽样设计一般都依赖于研究目的和要估计的目标量，即总体参数。目标量决定着抽样的方向、方法和执行程序。

2.界定研究总体和调查总体

界定研究总体和调查总体，包括确定调查对象和抽样单位。抽样调查虽然仅对一部分调查对象进行调查，但它的最终目的是从这一部分对象所显示的情况了解其所属总体的特征。因此，抽样应建立在和总体形成对应的基础上。严格的概率抽样，可以选出代表性好的样本，但这要求事先对总体有精确的了解。对于特定的研究课题，如果忽略了总体特征和选择总体的现实依据，尽管也采用随机的方法，也依然会失败。

例如，1936年美国《文学摘要》所进行的总统选举结果预测的调查就是一个著名的失败例子。这次选举的候选人是民主党的弗·德·罗斯福和共和党的阿·木·兰登。该杂志编辑部将所有选民作为研究总体，它以电话簿和汽车注册簿作为抽样框（它以往也是这样做的，并在1920年、1924年、1928年和1932年大选前作出了准确的预测），根据随机原则从中抽取1000万人并寄出模拟选票对其进行调查，最终共收回230万张模拟选票。根据调查的结果，57%的人将投票给兰登，因此，该杂志极其自信地预言兰登将当选总统。但出乎意料的是罗斯福获胜，《文学摘要》也因这次失败不久被迫停刊。与此同时，盖洛普考虑了地区、性别、年龄、所支持的政党以及收入等多种因素，采用配额抽样的方法，只调查了3000人，就预测出罗斯福将以55.7%的选票获胜。最终选举的结果是罗斯福以62.5%的选票获胜。盖洛普从此名声大振，逐步发展为今天全球最有竞争力的民意测验机构。

《文学摘要》失败的原因除了邮寄的方式外，主要就在于它对总体的错误了解上，它是以电话簿和汽车注册簿上的选民作为调查总体的，忽略了没有家庭电话和私人汽车的选民。而早在1936年，拥有住宅电话和汽车的人数比例都很低，仅限于社会的中上层阶级。在早几次选举中，中下层阶级大多数未参加投票，这些选民大部分没有汽车和电话，因此用家庭电话簿和汽车注册簿作为抽样框进行预测没有太大的问题，这是前几次调查成功的原因。1933年，美国严重的经济危机使大量人口滑落到了中下层阶级，改变了选民的成分，研究总体发生了变化。另外，在经济萧条时，劳动阶层的选民希望一个民主党人为总统，因而很多人都出来投票。这个例子说明了对总体精细、全面的了解是多么重要。

有些调查看起来像是随机样本，例如，借助杂志或报纸进行的读者调查，其调查的总体就是所有读者，但是由于事先并不了解这个总体的特性，加上往往不知道其范围的大小，因此从中选取的不可能是随机样本，因而就不能够确定样本是否代表了总体。这时就不能用样本的数据推论总体，否则就会发生错误。

因此，为了组织高质量的抽样调查，首先必须根据研究对象的特点去界定研究总体、调查总体和抽样单位，并尽量掌握有关总体的各种情况。

3.确定或构造抽样框

在确定了调查总体和抽样单位以后，应将总体按抽样单位划分为各部分，这些部分还必须互不重叠且加合后能完全还原为调查总体，这些部分共同构成了抽样框。在复杂的多阶段的抽样中，每个阶段都有相应的抽样框。

定义一项研究的抽样框是容易的，但要真正得到抽样框却经常是困难的甚至是不可能的。例如，受众研究中全体受众的名单几乎是不可能得到的。常用的解决办法之一是采用多级抽样法，例如，受众研究中获得前几级抽样单元的抽样框（如城市名单、居委会名单等）并不困难，而在最后一级或两级的抽样中，则可以仅对抽中的单元构造“抽样框”，比如只对抽中的居委会列出住户的名单、或画出该居委会的结构图，也可以很好地满足抽样设计的要求。

4.选择适当的抽样方法以及确定样本量的大小

具体的抽样设计包括两个部分：一是选择抽样的具体方法，二是确定样本所含个体数目即样本量的大小。具体的抽样方法和样本量的大小对样本代表性都有重大的影响。

1936年，盖洛普所用的抽样方法是配额抽样，虽然已经正确地预测了罗斯福当总统，但预测的比例55.7%和实际比例62.5%相差还是很大的。随着抽样理论的发展，科学的抽样方法被越来越多地采用。1984年，美国总统选举的前一天，盖洛普民意测验根据对1985位选民的调查结果，预测里根将会以59%的选票获胜，第二天选举结果是里根获59.1%的选票，预测结果和实际结果只相差了1‰。至于后来几届的总统选举预测，多家机构的预测结果都能和实际结果相吻合。这正是科学的抽样方法的功劳。

在科学的抽样理论日臻完善的今天，可选的抽样方法很多。而抽样设计的难点和关键即是根据研究的目的、内容、总体情况、研究的精度要求和经费的多少等，选择和设计适当的、既符合科学性又具有可操作性的抽样方法。

选择了恰当的抽样方法以后，就要确定抽取多少样本才是合适的。影响样本量大小的因素是复杂的，单纯地从统计理论来考虑，主要是根据抽样方法、对主要目标量的精度要求以及置信度等来确定适合的样本量。

5.制定抽样方案的实施细节

只给出抽样方法是不够的，还要给出实现这些方法的具体措施。例如，假定要求最后一级抽样中采用等距抽样法抽取住户，那么实施细节还必须给出如何排列住户顺序、如何抽取第一户、拒访或家中无人时如何处理以及必要时如何调换样本等具体的规定，以保证抽样方案的实现。

6.对样本进行评估

样本抽出以后，在开始调查之前还应对样本进行评估，评估样本的目的是初步检查样本对于总体的代表性，以免由于各种失误使样本偏差太大。评估样本可以采取收集若干容易得到的资料对总体和样本进行比较。下面举例说明具体评估的方法。

1999年，北京广播学院调查统计研究所设计的中国人民银行城镇储户调查抽样方案中，采用了分层抽样的方法在全国655个城市中分5层共抽取50个城市，然后根据《中国城市统计年鉴》所提供的资料对各层中七个指标的样本均值与总体均值进行比较，发现两者十分接近，如表1—6所示，可以认为所抽取的50个城市能较好地代表全国655个城市的情况。

对样本评价的结果，如果样本对总体具有代表性，就可以用之进行调查；如果评价中两者资料相差很多，则表明抽样步骤存在问题，要对其进行检查和修正，并重新抽样和评价。

（四）概率抽样和非概率抽样

在抽样调查的具体应用中，有的研究并不需要推知总体的状况，而只需要了解调查个体的状况，这时对抽样的要求就明显降低。根据抽样任务是否要保证对总体的代表性，抽样的方法一般可分为两大类：一类是依据概率理论，按照随机原则选择样本，完全不带调查者的主观意识；另一类是依据研究任务的要求和对调查对象的分析，主观地、有意识地在研究对象的总体中进行选择。前者称为概率抽样（也叫随机抽样），后者称为非概率抽样（也叫非随机抽样）。概率抽样是以一定的统计原则和一定的程序进行选择，每一个单元被选择的概率是已知的；而非概率抽样并不遵循统计规律。两者之间的主要差别在于概率抽样可以计算抽样误差，从而可以推断总体；而非概率抽样是无法计算抽样误差的，因此无法推断总体。

表1—6　　　7个指标的样本均值与总体均值的比较