首页 百科知识 设计抽样样本

设计抽样样本

时间:2022-07-14 百科知识 版权反馈
【摘要】:事实上,如果没有抽样,今天的市场调查就不会存在了。非概率抽样的优点在于简单易行,通常适用于那些小规模市场调查或者不方便采用随机抽样方式的调查。便利抽样最大的特点是节省时间和调研费用,主要目的是帮助调研者发现一些问题,常在探索性调查中使用。(二)判断抽样判断抽样是调查人员凭自己的主观意愿、经验和知识,从总体中选择具有典型代表性的样本作为调查对象的一种抽样方法。

学习目标

知识目标:

1.了解普查与抽样调查的内涵

2.了解随机抽样调查的含义和主要类型

3.了解非随机抽样调查的含义和主要类型

4.了解抽样的决策程序

5.了解抽样分布与样本容量确定的原理

6.了解抽样误差和置信的内涵

7.掌握简单随机样本容量的确定方法

技能目标:

1.区别随机抽样和非随机抽样

2.根据不同调查项目进行抽样决策

3.解释抽样误差和样本分布

4.根据调查项目确定抽样样本

任务导入

盖洛普公司是由美国著名的社会科学家乔治·盖洛普博士于1935年创立的一家全球知名的民意测验和商业调查/咨询公司。其在中国也设立了分公司。中国盖洛普公司拥有全国50多个城市和部分农村地区的消费者抽样框。

该公司曾经在中国进行过一次抽样调查,目的是发现中国成年人的一系列特征,其抽样过程如下:

(1)按照地理位置、经济发展水平和非农业人口所占比例将12500个县、城市和城区分成50个层面。

(2)基于相对于研究总体的概率比例,从各层面中筛选出一个由县或者城市组成的基本样本单位(PSU)。

(3)在每个PSU当中,收集所有的邻近社区和村庄的总体,从这个列表中再根据相对于研究总体的概率比例挑选出四个邻近社区或者村庄。

(4)从这四个邻近社区或者村庄中的每一个随机挑选出五个家庭,每个被选中的家庭都会选出一名应答者,程序设计中保证了样本恰当地代表所有性别所有年龄阶段;既定的系统程序挑选出将要采访的人,如果指定的应答者不在家,或者无法联络到,在必要的情形下,将从网格记录上的剩余家庭成员中系统地挑选出第二个甚至第三个家庭成员。

(5)如果三次单独的家庭走访都无法联络到指定的应答者,那么,在相同地区的替代家庭中进行采访是许可的。

(6)依照这个方法,在进行采访的区域,每五个被指定的家庭都应该有两个备份的替代家庭。

从统计学角度来讲,最终数据是精确的,而且它在正负2%的公差内预测了中国全体成年人的特征。

任务分析

在市场调研的过程中,抽样在提供准确、有用的数据方面的贡献颇大。事实上,如果没有抽样,今天的市场调查就不会存在了。

每个市场调研都需要选择一些样本。当新产品处在家庭试用阶段,我们必须选择试用的家庭;当我们想在某市场片区监督销售状况时,我们必须选择记录销量的商店;当我们想进行焦点小组的访谈时,也需要选择若干人参加访谈会议

抽样在市场调研中使用得十分频繁,原因在于它有一些不可替代的优势:

第一,抽样调查更省钱。对于有些调查项目来讲,样本越多,花费越多,甚至导致无法进行下去。比如新产品使用测试,如果样本量过多,则需要生产大量的试用产品,因而企业必须承担高昂的调研费用。特别是一些涉及范围广的项目,如任务导入中提到的案例,如果抽样选择得当,可以有效降低成本。

第二,抽样调查更省时间。由于抽样调查比普查所需要的样本更少,所以花在调查过程、印制问卷、培训采访员、数据录入和分析上面的时间会更少。

第三,抽样调查的数据可能会更加精确。调查的对象越多,在调查的过程中出错的可能性就越大,因此调查面过广反而会降低数据的精确性。

如何抽取合适的样本、确定合适的样本容量是一个值得重点关注的问题。本任务主要探讨抽样的方法,以及如何进行抽样设计。

任务知识

一、抽样的概念

在市场调查中,为了取得某一市场的总体情况,可以运用全面调查的方法以取得全面、完整的统计资料,进而了解市场的总体特征。

但是在许多情况下,比如在市场总体非常大、总体单位数非常多的情况下,或者当市场总体的综合特征需经过破坏性测试才能取得时,根本不可能对总体单位进行全面调查,只能调查部分单位,进而推断总体的综合特征。在市场调查工作中,抽样调查作为一种非全面调查方式,已经成为一种非常重要、应用广泛的调查方式。

抽样调查是指按照一定的规则,从研究总体的所有单位中,抽取一部分单位作为样本,然后以样本单位的调查结果对总体的数量特征做出具有一定可靠程度和精确度估计的一种调查方法。

抽样调查分为概率抽样和非概率抽样两类:

(1)概率抽样。

每个抽样单位都有已知的机会被选中作为样本,抽样规则根据概率论的基本理论知识来确定,调研者或实地采访员没有权力决定。

在随机抽样的条件下,给予总体中每一个个体平等的抽取机会,每个个体被抽中或抽不中完全凭机遇,排除了人的主观选择因素。

(2)非概率抽样。

从方便的角度或根据主观判断来抽取样本,不遵循随机原则。非概率抽样主要依赖于研究人员的经验和判断,无法估计和控制抽样误差,无法用样本的定量资料,采用统计方法来推断总体。

非概率抽样的优点在于简单易行,通常适用于那些小规模市场调查或者不方便采用随机抽样方式的调查。其目的是对市场总体做一般探测性了解,而不在于推断总体的情况。这种方法在对共性特别强的群体商业性市场调查中经常应用,也特别适合用于探索性研究。

在实际的市场调查过程中,这两类抽样方法都经常使用。

抽样主要的几种方法如图4-1所示。

二、非概率抽样过程

(一)便利抽样

便利抽样,顾名思义,就是根据便利选择样本,以方便调查者为基础,样本的选择主要由调查员来决定。便利抽样使用广泛,如下例所示:

(1)要求人们自愿测试产品,然后以这些使用人为样本。

(2)在人们购物过程中拦截采访,以获取其信息。

(3)使用学生或相关群体来进行实验。

在以上每个例子中,样本单位都是自我推荐或因为方便获得而被选择,调研人员并不清楚实际抽取的样本的总体是什么。

图4-1 抽样方法

每个调查员都认为自己选择的样本是有代表性的,但实际上,很多样本单位都没有机会被选取。比如在街头拦截访问中,只有刚好那个时间段经过采访地点的人才有可能被选择,那些没在特定时间段通过的样本单位则无法被选中。

在便利抽样中,由于调查对象被抽取的概率是未知的,样本的代表性也比较差,无法知道样本单位是否能够代表总体特征,所以利用调查结果来推断总体的风险也比较大。

便利抽样最大的特点是节省时间和调研费用,主要目的是帮助调研者发现一些问题,常在探索性调查中使用。

(二)判断抽样

判断抽样是调查人员凭自己的主观意愿、经验和知识,从总体中选择具有典型代表性的样本作为调查对象的一种抽样方法。这种方法使用较广泛。

判断抽样一般有三种做法:

(1)精心选择一些经验丰富的专家,由他们来判断和选择样本。例如在新产品试销中,由专家来决定试销的城市和企事业单位,再在工业市场调研中采访这些单位,构成一个判断抽样。判断抽样误差的程度和方向是未知的。如果专家的判断是有效的,比起使用便利抽样,这些样本会相对有代表性一些。

(2)利用总体的全面统计资料,按照一定标准,主观选取样本。例如,要了解某学院学生对于学生会选举的看法,可以根据调研人员的判断,选择学生会干部、班干部、普通学生、课任老师和辅导员等有代表性的成员来进行调查。

(3)选择最能代表普遍情况的调查对象,常以“平均型”或“多数型”为标准。“平均型”是在调查总体中对平均水平具有代表性的单位;“多数型”是在调查总体中占多数的单位。利用此种做法时,应尽量避免选择“极端型”。

判断抽样的优点在于能充分发挥研究人员的主观能动作用,特别是当研究者对所研究的总体情况比较熟悉、判断能力比较强时,采用这种方法往往比较方便。但是它的局限性也很明显,即样本的代表性和抽样误差往往难以判断。

判断抽样多用于总体规模较小,或调查时间、人力等条件有限而难以进行大规模随机抽样的情况。

(三)配额抽样

配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定特征分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。由于在各类抽样时并不需要遵循随机原则,所以它是非随机抽样的方式之一。

配额抽样和分层随机抽样既有相似之处,也有很大区别。相似的地方,即都是事先对总体中所有单位按其属性、特征分类,这些属性、特征我们称之为“控制特性”。例如市场调查中消费者的性别、年龄、收入、职业、文化程度等。然后按各个控制特性分配样本数额。

二者的区别在于,分层随机抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。

配额抽样有两种:独立控制配额抽样和相互控制配额抽样。

1.独立控制配额抽样

独立控制配额抽样是指在调查人员只对样本独立规定一种特征(或一种控制特性)的情况下安排样本数额的抽样方式。如在消费者需求调查中,我们按年龄特征分类,分别规定不同年龄段的样本数目,就属于独立控制配额抽样。人们通常把消费者的年龄、性别、收入分别进行配额抽样而不考虑三个控制特性的交叉关系。

2.相互控制配额抽样

相互控制配额抽样是指在按各类控制特性独立分配样本数额的基础上,采用交叉控制安排样本的具体数额的抽样方式,如表4-1所示。

表4-1 相互控制配额抽样

三、概率抽样过程

概率抽样又称随机抽样。概率抽样以概率理论为依据,通过随机化的机械操作程序取得样本,所以能避免抽样过程中的人为因素的影响,保证样本的客观性。这种方法还能保证抽样框中的每个抽样单元都具有同等被抽中的可能性。

虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,而且能计算和控制抽样误差,因此可以正确地说明样本的统计值在多大程度上适合于总体。根据样本调查的结果可以从数量上推断总体,也可在一定程度上说明总体的性质、特征。

概率抽样主要分为简单随机抽样、分层随机抽样、整群随机抽样。

(一)简单随机抽样

简单随机抽样是一种广为使用的概率抽样方法。它的适用范围最广,也是理论上最符合随机原则的方法。

简单随机抽样是最完全的概率抽样,它对调查总体不经过任何分组、排队,完全凭着偶然的机会从中抽取个体加以调查。如前面提到的,随机抽样就是使总体中每个单位在抽选时具有相等的被抽中的机会。

在简单随机抽样条件下,抽样概率公式为:抽样概率=样本单位数∕总体单位数。

例如:如果总体单位数为10000,样本单位数为500,那么抽样概率为5%:

简单随机抽样的具体抽取方法有直接抽取法、抽签法和随机数字表法。

1.直接抽取法

直接抽取法是从总体中直接随机抽样本进行调查。这种方法适合对集中在较小空间的总体进行抽样。例如:对存放在仓库中的所有同类产品随机抽出其中若干件产品进行质量检验

2.抽签法

抽签法是将总体中每个样本给予名称或号码,然后将有这些名称或号码的数据库打乱次序,从中任意抽出所需要的调查样本。

抽签法有重复抽样和不重复抽样两种方式。例如:从1000名学生中抽取50人进行调查,可以先把1000名学生的姓名填入一张Excel表中,运用随机排序方式排序,然后任意从其中挑选一个学生姓名,并把该学生的姓名从1000名学生样本中排除,则该学生就是样本的第一个单位。依次取出50个不同的学生姓名,就此构成此次抽样样本,这是不重复抽样;如果每一次都不把学生的姓名排除,再任意选择,出现重复的再重新抽取,直至取到50个不同的学生姓名,这就是重复抽样。

3.随机数字表法

随机数字表法使用随机数表抽取样本单位以组成所需要的样本。随机数表是在抽签法的基础上形成的。例如:对0~9这10个数字进行重复抽样,记录每一次的结果,进行成千上万次后,就形成了一个庞大的数表,且数表中数字的排列是随机的,毫无规律可言,因此随机数表也称为乱数表。

随机数表虽有不同的样式,但其中组成的数字完全是随机的,即每个数字都不会比其他数字有更多出现的机会,完全符合随机原则,所以可以作为随机抽样的工具。表4-2是从随机数字表中抽取的部分内容:

表4-2 随机数表(部分)

续表

案例4-1

从100名学生中抽取10名进行调查,用以上的随机数表如何抽取样本?

抽取过程如下:

(1)给这100名学生标号。号码的位数要一致,都是三位数(在此随机数表中都选择后两位),不够位的在前面加“0”,总体各单位编号是从001至100;

(2)以随机数表中第3行第2列的数字作为起点,构成一个与总体所有单位具有相同位数的号码“023”作为起始号码;

(3)从起始号码开始,从左到右依次抽取10个不重复的位于001~100的号码,分别是:023、056、063、088、055、091、024、022、080、006。这10个号码对应的10个学生就是抽取的样本。

简单随机抽样的优点在于,它看起来简单,并且满足概率抽样的一切必要的要求,保证每个总体单位在抽选时都有相等的被抽中的机会。

简单随机抽样可以通过电话随机拨号功能完成这个步骤,可以从电脑档案中挑选调查对象。当样本框完整时,使用简单随机抽样对抽样误差的计算和对总体参数值的推断都比较方便。

但是,简单随机抽样法在实际应用中有一定的局限性,主要表现在三个方面:

(1)采用简单随机抽样,一般需要事先对总体各单位进行编号,而实际操作中如果调查总体十分庞大,总体单位非常多时,事先对每个单位一一进行编号几乎是不可能的;

(2)当总体各单位差异较大时,采用简单随机抽样抽出的样本可能会集中于某类单位,不能做到在各种类型中的单位中较为均匀地分布,其样本的代表性比较差;

(3)采用简单随机样本抽出的样本分布较为分散,实地调查消耗的人力、物力、费用较大。

因此,简单随机抽样比较适用于总体单位数不多,并且总体单位之间差异较小的情况。

(二)分层随机抽样

分层随机抽样是指将调查对象的总体分隔为相互排斥的、完全穷尽的层级。如果一个层级的成员排斥所有其他层级的成员,层就是相互排斥的。例如,对“人”这个总体来讲,按照性别分层可以分成“男”和“女”两个层级,任何一个人都不可能同时属于两层。然后再在每个层中,选择独立的随机样本。

分层随机抽样的方式有等比例的分层抽样和非等比例的分层抽样两种。

1.等比例的分层抽样

等比例的分层抽样是按各个层中个体数量占总体数量的比例来分配各层的样本数量。

案例4-2

某学校有4000名学生,按照四个不同的系别进行分层。其中,移动通信系800名,占总体的20%;通信工程系1400名,占总体的35%;计算机系1200名,占总体的30%;管理系600名,占总体的15%。某次调查需要从该学校抽取400个样本进行学生课余生活的调查,如果按照等比例分层抽样进行的话,各个系应分别抽取的样本数为:

移动通信系的样本数目为:400×20%=80(人)

通信工程系的样本数目为:400×35%=140(人)

计算机系的样本数目为: 400×30%=120(人)

管理系的样本数目为: 400×15%=60(人)

这种方法操作简单,分配较合理,计算也非常方便,适合个体之间差异不大的分类抽样调查。如果各个个体之间的差异较大,则适合采用非等比例的分层抽样。

2.非等比例的分层抽样

与等比例的分层抽样不同,非等比例的分层抽样不是按照各层中个体数占总体的比例来分配样本,而是根据其他一些因素(比如各层标志值的变异程度不同、实际的调查过程难易程度等)调整各层的样本个数。这种抽样方法在每层的样本抽取量不同。

案例4-3

著名的国际调研公司A.C.尼尔森市场调研公司在调查零售行业变化趋势的时候采用了非等比例的分层抽样。

尼尔森公司首先在全球范围内根据销售额的不同将零售商店分成四类:连锁店、大型独立商店、中型独立商店、小型独立商店;

其次,在此基础上调查出各个类型的商店在全球范围内所占的比重为:连锁商店占27.5%,大型独立商店占18.2%,中型独立商店占27.5%,小型独立商店占26.8%;

然后,尼尔森根据过去调查的经验发现,较大的商店比较小的商店表现出来更多的易变性,所以在选择样本时,对于中大型商店选择的样本量更多,连锁店占样本总量的40%,大型独立商店占总样本量的21.1%,中型独立商店占总样本量的22.9%,小型独立商店占16%;

最后,根据此比例,在抽取具体的商店样本的时候,连锁商店每49个抽取1个,大型独立商店每52个抽取1个,中型独立商店每85个抽取1个,小型独立商店每133个抽取1个。

一般情况下,采用非等比例的分层抽样的原因有:

(1)保证占总体比例小的层有足够的样本单位数,以便从该层中抽取的样本能较好地代表该层;

(2)增加异质性较大的层的样本单位数,使该层的子样本有较小的抽样误差;

(3)某些层对于研究来说非常重要,就要从这样的层中多抽些样本单位。

需要注意的是,非等比例抽样获得的样本主要用于对各层的单独研究,这样的样本并不能作为推断总体情况的依据。

总的来说,分层随机抽样一般比简单随机抽样和系统抽样更为精确,能够通过较小样本量的调查得到较准确的结果。特别是在总体数量大、内部变异程度较大的情况下,分层随机抽样的效果更加理想

(三)整群随机抽样

整群随机抽样是先将总体按照某一标准划分为若干群,随机抽取部分群,对抽中的群内所有单位进行调查的一种抽样组织方式。

整群抽样示意见图4-2:

图4-2 整群抽样示意

1.简单整群抽样

简单整群抽样即随机抽取多群样本单位,然后研究所有或部分被选中的群体。简单整群抽样适合于各群之间的差异较小,但是群内各个个体之间差异较大的情况。

例如,调查某城市的大学生业余生活情况。在同一个城市的不同大学之间,大学生的业余生活大致相仿,但是每个大学内学生的业余生活有较大的差异。在这种情况下,抽取其中一所大学进行全面调查,所得到的数据即有较大的实用价值。

2.系统抽样

系统抽样也称等距抽样或机械抽样,是一种有组织地从总体单位中进行抽样的方法。

系统抽样通常将调查总体的各个个体按一定的标志排列起来,然后按照固定顺序和一定的时间间隔来抽取样本。下面是系统抽样的例子:

案例4-4

某电信公司需要从10000名语音电话用户中按照系统抽样的方法抽选出1000名客户开展客户满意度调研。

(1)先将这10000名用户进行编号,从1号到10000号;

(2)确定抽选的距离:10000÷1000=10(人),因此抽选样本时,每隔10个人抽选一名用户;

(3)最后确定总调查样本。

在以上的例子中,编号完成后,在每个10人的区间内也可以按照简单随机抽样的方法抽选样本。

系统抽样是市场调查中广泛使用的一种方法。系统抽样与简单随机抽样相比,可使中选个体比较均匀地分布在调查总体中。尤其当被研究对象的标志变异程度较大,而在实际工作中又不可能抽选出更多的样本的个体的时候,这种方式更有效。

系统抽样的缺点在于:

第一,运用系统抽样要有调查总体中每个个体的有关资料,特别是按照一定的特征进行编号的时候,需要有要较为详细的相关资料。如果调查总体数量非常庞大,这个工作将非常艰难。

第二,当抽选间隔和被调查对象本身的循环周期相重合的时候,系统抽样的代表性会受到质疑。比如,某些电器销售商店的销量往往到周末会大增,如果抽到了周末,而抽样距离又刚好是7,那么每次抽样都将抽到周末,这样抽样的销售结果会比实际的偏大。

四、抽样误差及其测定

调查结果的准确性无疑是调查组织者十分重视的问题,它通常用抽样误差来确定。在抽样方式和总体既定的前提下,抽样误差的大小主要取决于抽样数目的多少。

对抽样误差的控制主要通过控制抽样数目来实现。因此,抽样误差与抽样数目的确定,是随机抽样调查中两个重要的问题。

(一)抽样误差的概念

抽样误差是指用样本指标推断总体特征所产生的误差,这是进行抽样市场调查时不可避免的误差。抽样误差的类型如图4-3所示:

图4-3 抽样误差

在市场调查工作中,通常所说的误差有两种:

一种是调查误差,即在调查统计工作中,由于工作上的种种原因而产生的误差,也叫技术性误差。如在调查工作中由于登记、汇总、计算、调查方案设计的缺陷、统计方式不够科学等所引起的误差。这种调查工作过程中所产生的误差是在抽样调查和普查中都可能发生的。

另一种是(样本)代表性误差,指由于样本结构和总体结构不一致,以样本综合指标推断总体综合指标所产生的误差。

代表性误差又有两种不同的情况:

一是在抽样过程中违反随机抽样的原则,或抽样方式不妥而造成的系统性误差;二是由于样本不能完全代表总体所产生的误差。后者叫作偶然的代表性误差。

调查误差和系统性误差都可以避免,而偶然的代表性误差则不可避免,只能将其控制在一个有效的范围内。

本书所说的抽样误差,专指抽样平均误差。它反映了样本代表性的大小。平均误差愈大,样本代表性越小。

(二)抽样误差的估算方法

1.抽样误差大小的影响因素

(1)总体各单位之间的差异程度:总体变量存在变异是客观的,差异程度愈大,其分布就愈分散,抽样误差就越大。这种差异程度,在统计上叫作标志变异程度,通常用方差或标准差来表示。

(2)样本数目:在其他条件一定的情况下,样本容量越少,即抽取的样本数目越少,抽样误差就越大。当样本容量达到总体容量时,抽样调查就变成普查了,这时抽样误差就会消失。

(3)抽样方式:一般来说,系统抽样和分层随机抽样的误差要小于简单随机抽样和简单整群抽样的误差,不重复抽样误差要小于重复抽样误差。

2.抽样误差的估算方法

简单随机抽样是抽样法的基础。下面重点介绍简单随机抽样条件下的抽样误差估算方法。

(1)平均数指标抽样误差的估算方法。

①重复抽样条件下的计算公式:

式中:——抽样误差;

n——样本单位数;

σ2——总体方差;

σ——总体标准差。

②不重复抽样条件下的计算公式:

式中:N——总体单位数。其他符号的意义同上。

当总体单位数N值很大时,也可以用下列公式计算:

式中符号的意义同上。

(2)成数指标抽样误差的估算方法。

成数就是在总体中具有所研究标志的样本数所占的比重。成数指标抽样误差的计算方法与平均数指标抽样误差的计算方法的原理是相同的,所不同的是总体方差的计算方法,因为各个样本成数的平均数就是总体成数本身,它既表明在总体中所占的比重,同时又是总体的平均数。

①重复抽样条件下的计算公式:

式中:μP——成数的抽样误差;

P——总体成数;

n——样本数。

②不重复抽样条件下的计算公式:

式中:N——总体单位数。其他符号的意义同上。

当N很大时,上式也可以简化为:

式中各符号的意义同上。

从上述平均数和成数的抽样误差计算公式中可以看出,因为1-n/N总是小于1,不重复抽样的误差必定小于重复抽样的误差,所以在实际工作中,通常采用不重复抽样的方法抽取必需的样本。在计算抽样误差时,既可以采用重复抽样的误差计算公式,也可以按不重复抽样的误差公式进行计算,因为当总量很大时,1-n/N就趋近于1了,用两种计算公式得出的结果相差不大,而市场调查中总体数量通常都非常大。

利用上述公式计算抽样误差,需要解决的首要问题是:如何确定总体方差或总体成数。在市场调查中,总体方差或总体成数一般可以通过以下方法取得:

一是从已有的普查或全部统计资料中取得;

二是采用经验估算的方法取得;

三是事先组织一次小规模的探测性调查,以抽样调查的方法代替;

四是在抽样调查完成后,用样本方差来代替。

其中第四种方法最常用。

至于其他的抽样方法的抽样误差估算,原理同简单随机抽样是一致的,其主要区别是估算公式中的总体方差有所不同。在实际工作中,通常也可以用简单随机抽样的误差公式代替。

五、必要抽样数目的确定

对于抽样误差的控制,除了要根据实际问题选择正确的抽样方式之外,还要考虑抽样数目的多少。抽样数目过多,会造成人力、物力、财力和时间上的浪费,使得抽样调查的总成本提高;抽样数目过少,又会使调查结果存在较大的误差,达不到要求的精度。

所谓必要抽样数目是指使抽样调查在给定的误差范围内能够达到调查结果精确度要求的最小样本单位数。影响必要抽样数目的因素包括:

1.总体各单位之间的标志差异程度的大小

在抽样误差范围一定的条件下,总体各单位之间的标志差异程度越大,需要抽取的样本数目就越多。原因是总体单位之间的差异越大,一定数目的总体单位对总体的代表性就越低。当总体单位之间差异小的时候(甚至总体单位的标志值都相等时),一个总体单位的标志值就足以代表总体的平均水平。

2.允许误差的大小

在其他条件一定的情况下,允许的误差越小,抽样数目就要越多。在抽样调查时,应当取多大的允许误差,要根据调查的目的、经费预算、时间要求来确定。

3.不同的抽样组织和抽样方法

一般情况下,简单随机抽样和整群随机抽样两种抽样方式要比分层随机抽样所需的样本单位数多,重复抽样要比不重复抽样的样本单位数多。

任务实施

前面介绍了抽样调查的一些基础知识。在1950年之前,非概率抽样使用极其广泛,之后随着概率论和数理统计学科的发展,概率抽样才开始在实践中频繁使用。

概率抽样和非概率抽样的选择问题,其实只是设计抽样方案的一个部分。那么,在一个具体的调研项目中,我们该如何设计抽样方案?

下面我们就抽样方案的设计步骤进行探讨。图4-4是抽样的流程图。

图4-4 抽样的流程图

步骤一:定义调查总体

总体是指在样本选择之前就定义的所有潜在调查元素的总和。在定义调查总体的过程中,需要考虑四个主要的因素:第一个是调查的个体特征;第二个是抽样的基本单位;第三个是抽样的广度,或者说区域;第四是抽样的时间限定。以下两个例子是对总体的定义:

1.一次消费者调查项目对总体的定义:

(1)抽样的个体特征:18~50岁的女性;

(2)抽样的基本单位:社区内18~50岁的女性消费者;

(3)抽样的广度:中国湖南省;

(4)时间:2017年3月1日—6月1日。

2.监控某新的消费品的销售情况,对总体的定义如下:

(1)抽样的个体特征:需监控的产品;

(2)抽样的基本单位:超市、药店、打折店,以上各类店铺里需要监控的产品;

(3)抽样的广度:中国大陆;

(4)时间:2017年4月1日—6月1日。

步骤二:识别抽样框架

抽样框架是在抽样过程中所有可供选择的抽样单位。在最终阶段,实际样本就从这样的框架中提取。抽样框架可以是电话号码本、调查对象所在的行业单位,也可以是一张地图。如在地图中抽取一块地理区域。城市社区就是一个例子。

一旦总体已经具体化,就可以根据调查总体的特征设计抽样框架。抽样过程通常需要多个阶段,调研设计者所做的工作是在每个阶段具体化抽样单位。

例如,上述例2中的消费品抽样框可以设计为四个阶段:

第一个阶段是销售该消费品的所有城市列表;

第二个阶段是被选中的销售该消费品的城市的社区列表;

第三个阶段是被选中的这些城市社区的家庭列表;

第四个阶段是被选中家庭的成员列表。

随着环境的变化,可能需要更新抽样框。

步骤三:选择抽样方法

在选择抽样方法之前,首先要确定运用概率抽样方法还是非概率抽样方法。

如前文所述,概率抽样有简单随机抽样、分层随机抽样、整群随机抽样三类。非概率抽样有便利抽样、判断抽样、配额抽样三类。选择抽样方法时,要考虑调研的经费、时间以及对于调查精度的要求等方面的因素。

一般来说,非概率抽样的误差难以控制,也无法测定其误差到底多大,只能借助于经验和过去的统计资料进行分析判断。

而概率抽样则不同。概率抽样的原理来自概率论与数理统计,相比较而言有较为完善的理论支持,测量抽样误差也较容易,可借助相应的数学公式控制抽样误差。但是不可否认的是,非概率抽样的优势也非常明显,其最大的优势是便于执行,通常费用也比概率抽样要低,操作也简单。

鉴于此,正式的抽样调查通常采用概率抽样方法,而非概率抽样则更多地在探索性调研项目中使用。更常见的做法是在确定了抽样框架后,在不同的阶段采用不同的抽样方法。在某些阶段采用概率抽样,而在其他阶段采用非概率抽样,这样就可以综合利用概率抽样和非概率抽样的优点,以期在保证调研预算的前提下获得更精确的调研结果。

步骤四:确定样本规模

前面的任务知识中介绍了简单随机抽样最小样本规模的计算公式。非概率抽样则主要依赖于调研设计者对于预算和调研精确度要求的把握来确定一个合理的调研样本量。

概率抽样中更加复杂的分层随机抽样和整群随机抽样的样本量的计算更加复杂。在条件许可的情况下,也可以利用简单随机抽样的公式来确定最小样本量。

步骤五:挑选样本

在确定了抽样框架和样本规模之后,就要根据抽样框架来选择具体的样本。

挑选样本是一项复杂的工作,需要对影响样本量的因素进行分析。影响样本量的因素主要有:

(1)调查的精度:用样本数据对总体进行估计时可以接受的误差水平。

(2)总体的变异程度:在其他条件相同的情况下,总体的变异程度越大,所需要的样本量也越大。

(3)无回答情况。无回答减少了有效样本量,在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响。

(4)可操作性,即样本量的确定要考虑实际调研中的实际操作性,通常涉及调研经费和时间限制的问题。一般来说,样本量越大,经费要求越多,时间也越长。

实践演练

1.某调研机构想就本地区大学生就业现状进行抽样调查,试为此抽样调查设计一份抽样方案。

2.某卫视台想就全国电视观众进行抽样调查。调查目的是获取全国电视观众群体规模、构成及分布情况,获取这些观众的收视习惯、对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。

通过以上描述,请你帮助设计一份抽样方案。

拓展阅读

国家卫生服务总调查样本地区和样本个体的抽取方法

1.概述

1.1 国家卫生服务总调查抽查的原则

既要兼顾调查设计的科学性,即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不至于因过多增加样本量而加大调查的工作量,即经济有效的原则。

1.2 抽样的方法

多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层是以村为样本地区。最后以住户为样本个体。

2.第一阶段分层整群抽样

2.1 第一阶段抽样着重解决的两个基本问题

一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是如何确定抽样比例,即多大的县、市样本量能经济有效地代表全国和不同类型的地区。

2.2 第一阶段分层基准的确定

第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、文化教育、人口结构和健康指标。

10个指标的主成分分析结果如表1。

表1 主要社会经济和人口动力学指标的主成分因子模型

从主成分分析中可以看出主成分1与绝大多数变量有十分显著的关联,意义十分明确,而且代表10个变量整体信息的51.22%。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此,确定主成分1为分层的基准,称它为分层因子。

2.3 第一阶段的聚类分层

在计算各县、市分层因子的得分后,用K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区,即五层。聚类分层的结果是,第一层有201个县(市或市区),占整个县(市或市区)的8.2%;第二层有650个县(市或市区),占26.5%;第三层有698个县(市或市区),占28.5%;第四层有691个县(市或市区),占28.2%;第五层有212,占8.6%。

表2显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差的地区,第五层是差的地区。

表2 主要社会经济和人口动力学指标的主成分因子模型

第一层所在的市县是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差的地区,第五层是差的地区。

2.4 第一阶段分层等概率多种样本容量的抽样

用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取的样本量为120、90、60、45、30五个大小不等的样本。为了保证各层每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表3。

表3 不同大小样本量样本在各层的分配

按系统随机抽样方法,每个不同大小样本量的样本应抽取6次。同一样本量的6次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。

2.5 第一阶段最佳样本量样本的选择与评价

2.5.1 不同样本量样本各变量均值与总体均数的比较

如果将不同样本量样本各变量的均值与总体各变量的均数当作绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时,用“1-平均相对误差”作为精确度。

表4显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。

表4 不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差

续表

从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样本量从120减少到60,平均相对误差就会由1.46%增加到2.73%。而样本量如果从60减少到30,平均相对误差就会从2.73%增加到5.56%,增加了一倍以上。样本量为120、90、60的样本精确度均大于95%,也就是说,样本量大于60就可对总体有较好的代表性。

2.5.2 不同样本量样本各变量的分布与总体分布的比较

样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表5列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果看,平均卡方值小于9.49这一差异有显著性水平的样本量为120、90和60。鉴于上述分析,可认为样本量大于60的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。见表5。

表5 不同大小样本量样本社会经济和人口动力学指标的频数分布与总体分布的拟合度检验

*X95%(4)=9.49 **X99%(4)=13.2

2.5.3 不同样本量样本分散度的评价

样本分散度指样本中各层的变量统计量对总体各层的代表性:在第一层中,样本量为120和90的样本,平均每个指标的精确度均大于95%;样本量为60的样本,精确度为89.4%。从第二层到第四层,样本量为120和90的各个样本,平均每个指标的精确度都大于95%;第五层样本量为120、90和60的各样本,精确度分别为94.1%、92.5%和93.9%,与上述四层相比精确度略差一些。也就是说,要对总体各层有较好的代表性,样本量至少为90。详见表6。

2.6 考虑到经济有效的原则和对全国不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取90。

3.第二阶段整群随机抽样

3.1 在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1∶160。第二阶段整群系统随机抽样全国共抽取450个乡镇(街道)。平均每个“样本县(市或市区)”抽5个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。

3.2 第二阶段整群随机抽样的基准

由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。

3.3 第二阶段整群随机抽样的方法

3.3.1 将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;

3.3.2 由多到少依次计算人口数(或人均收入)的累计数;

3.3.3 计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数/5);

3.3.4 用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。

3.4 第二阶段整群随机抽样实例

某个样本县共有18个乡、镇,要从该样本县抽取5个乡镇作为样本。根据抽样方案的要求,第一步,人口数的多少由大到小排序,并计算累计数(该县人口累计数,即人口总数为248600),见表6。

第二步,计算抽样间隔,用人口总数除于抽样的样本数,248600/5=49720,即该县乡镇整群抽样的抽样间隔为49720。

第三步,确定第一个随机数,取一张人民币,其编号为FP59243854,取后5位数43854,所取的后5位数不能大于抽样间隔数,如大于再取一张人民币。该后5位随机数接近第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本。

第四步,用第一个样本的累计数加抽样间隔,即43000+49720=92720,该数接近第5编号即新龙乡的累计数,即确定第5号新龙乡为第二个样本。

第五步,用第二个样本的累计数加抽样间隔,即100900+49720=150620,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第12号和18号,即桐连乡和四顶乡。这样,五个样本乡镇就确定了。

表6 第二阶段整群随机抽样的实例

4.第三阶段随机抽样

4.1 第三阶段随机抽样的基准和样本容量

4.1.1 在同一个乡镇(街道)内,各村(居)委会的经济发展和卫生状况基本上变异不大。因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居)委会。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。

4.1.2 每个“样本乡镇(街道)”整群随机抽取2个村(居)委会,全国共抽取900个村(居)委会,全国每村(居)委会被抽为样本的概率为1∶1120。

4.2 第三阶段整群随机抽样的方法

4.2.1 将样本乡镇(街道)所有的村(居)委会按人均收入的多少(或人口数的大小)由多到少依次排序;

4.2.2 由多到少依次计算人均收入(或人口数)的累计数;

4.2.3 计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);

4.2.4 用纸币法随机确定第一个样本村(居)委会,然后加上抽样距离确定第二个样本村。

4.3 第三阶段随机整群抽样的实例

第一步,将所有的村按人均收入的多少由大到小排序,并计算累计数;

第二步,计算抽样间隔:7337/2=3669;

第三步,确定第一个随机数,取一张人民币,其编号的后4位数是2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;

第四步,用第二位的累计数加抽样间隔(2805+3669=6474),接近第10编号的累计数,确定为10号为第二个样本。

表7 第三阶段随机整群抽样实例

*为随机抽取的样本数。

5.样本个体的抽样

5.1 最终的抽样单位是住户。在每个“样本村(居)委会”中按20%的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为54000/28000万,约5000户中抽1户。如果按每户4个人计算,人口抽样比为1∶5000左右。

5.2 抽户方法是由各样本乡镇(街道)的调查指导员按上述抽样比例在样本村(居委会)随机抽取,具体方法:

5.2.1 按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列。

5.2.2 对同一门牌号,同一个大院和楼号的,按门号从小到大排列;对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。编码一经确定不许变动。

5.2.3 编好住户码列入住户清单表式中:

5.2.4 根据抽样比例计算应抽的户数(一般平均每个样本村60户),然后系统随机抽取。方法同上:

第一步,计算所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取的住户数(300×20%=60);

第二步,计算抽样距离(1200/60=20);

第三步,确定第一个随机数(如取一张人民币,其编号的后两位数是12,这个随机数接近第3编号的累计数,因此确定第3号住户为第一个样本);

第四步,用第3号的累计数加抽样距离(13+20=33),看33最接近第几编号住户,并确定这家住户为第二个样本。同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。用同样方法确定以后各样本住户。

5.2.5 抽样时可多抽取6户,作为备用。抽取方法是在上述抽取完毕以后,按上述步骤再从未抽取的住户中抽取6户。

表8 国家卫生服务总调查样本容量和抽样概率

此案例来自于国家卫生和计划生育委员会网站http://www.moh.gov.cn/。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈