首页 百科知识 抽样与户内抽样

抽样与户内抽样

时间:2022-03-11 百科知识 版权反馈
【摘要】:社会研究中最重要,也最常用的一种不等概率抽样叫做“概率与元素的规模大小成比例的抽样”,简称PPS抽样。假设要从全市100家企业,总共20万名职工中,抽取1000名职工进行调查。而这最后一个阶段的抽样则可以采取一种被称作“Kish选择法”的方式进行。因此,就对女儿进行调查访谈。
抽样与户内抽样_社会调查与统计

第四节 PPS抽样与户内抽样

一、PPS抽样

当元素的大小不同,或者元素在总体中的地位不同时,我们需要采用不等概率抽样的方法。比如,在从全市几百家企业中抽取20家企业进行调查时,一个有着数万职工的大型企业与一个只有一二百人的小企业所占的地位,显然是很不一样的。如果此时仍然采用等概率抽样的方法,则样本的代表性和精度都会比较差。而如果采用不等概率抽样的方法,使大的企业入选样本的概率大一些,小企业入选样本的概率小一些,这样就可以大大提高估计的精度。社会研究中最重要,也最常用的一种不等概率抽样叫做“概率与元素的规模大小成比例的抽样”(sampling with probability proportionate to size),简称PPS抽样。

我们通过一个例子来说明PPS抽样的必要性及其做法。假设要从全市100家企业,总共20万名职工中,抽取1000名职工进行调查。我们采取多段抽样的方法,首先从100家企业中随机抽取若干家企业,如抽取20家;然后再从这20家企业中分别抽取50名职工(50×20=1000)构成样本。需要注意的是,这100家企业的规模是不同的:最大的企业多达16000名职工,而最小的企业则只有200名职工。如果这样的两个企业都选入第一阶段的样本(即都进入20家企业的样本),那么它们在第一阶段的入选概率是相同的,即都为20÷100=20%;但第二阶段从每家企业中抽取职工时,这两家企业中每个职工被抽中的概率却大不一样:前者的概率为50÷16000=0.3125%,而后者的概率则为50÷200=25%。这样,规模大的企业中每个职工被抽中的概率则为20%×0.3125%=0.0625%;而规模小的企业中每个职工被抽中的概率为20%×25%=5%;规模大的企业中的职工相对于规模小的企业中的职工来说,他们被抽中的概率要小得多(后者是前者的80倍)。

为了解决这一问题,我们可以采用PPS的方法,首先将各个元素(即企业)排列起来,然后写出它们的规模、计算它们的规模在总体规模中所占的比例;将它们的比例累计起来,并根据比例的累计数依次写出每一元素所对应的选择号码范围(该范围的大小等于元素规模所占的比例(见表5-5中第一、二、三、四列),然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本(见表5-5第五、六列)。最后再从所选样本中进行第二阶段抽样(即从每个被抽中的元素中抽取50名职工)。由于规模大的企业其所对应的选择号码范围也大,而选样号码范围大时,被抽中的概率也大(有些特别大的企业还可能抽到不止一个号码,如企业3就抽到两个号码。那么在第二阶段抽样中,就要从企业3中抽取50×2=100名职工)。由于规模大的企业在第一阶段抽样时被抽中的概率大于规模小的企业,这样就补偿了第二阶段抽样时规模大的企业中每个职工被抽中的概率小的情况,使得无论规模大还是规模小的企业中,每个职工总的被抽中的概率都是相等的。所以,这种方法最终抽出的样本对总体的代表性也大。

表5-5 用PPS方法抽取第一阶段样本举例

img43

续表

img44

二、户内抽样法(within-household sampling)

1.Kish选择法

当研究者以家庭作为分析单位,以入户访谈的方法收集资料,试图研究城乡家庭的结构、关系、生活方式或其他内容时,他们往往采用多段抽样的方法从某一市(县)中抽取区(乡),再从区(乡)中抽取街(村),从街(村)中抽取居委会(居民组),然后从居委会(居民组)中抽取家庭户,最后从家庭户中抽取一位成年人作为访谈对象。从这些访谈对象那里得到的有关其家庭的资料被用来描述这些家庭的特征和类型。在这种研究中,我们不仅需要抽取家庭户的样本,同时还要进行户内抽样——从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本;在抽取家庭中的成年人之前的每个抽样阶段中,我们可以采用前面所介绍的某种方法来抽。而这最后一个阶段的抽样则可以采取一种被称作“Kish选择法”的方式进行。根据这种方法,每户家庭中所有的成年人(如18岁以上者),都具有同等的被选中的概率或机会。

Kish方法的具体做法是:研究者先将调查表分为(编号为)A、B1、B2、C、D、E1、E2、F八种,每种表的数目分别占调查表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6(见表5-6)。同时,印制若干套(一套八种)“选择卡”发给调查员,每人一套。“选择卡”的形式见表5-7。

表5-6 八种抽样表的分配数量

img45

调查员首先要对每户家庭中的成年人进行排序和编号,排序的方法是男性在前,女性在后;年纪大的在前,年纪小的在后,即最年长的男性排第一,次年长的男性排第二,以此类推;最年长的女性排在最年幼的男性后面,其他女性也按年纪从大到小排列,见表5-8。

表5-7 Kish选择表A

img46

表5-8 家庭内成年人排列表

img47

然后,调查员按照调查表上的编号找出编号相同的那种“选择表”,根据家庭人口数目从“选样表”中查出该选个体的序号,最后对这一序号所对应的那个家庭成员进行访淡。比如,某家庭18岁以上的成年人共有四人:祖母、父亲、母亲、儿子,其排序则为:①父亲;②儿子;③祖母;④母亲。若调查表为A类,则抽取父亲;若调查表为D2类,则抽取儿子;若调查表为D类,则抽取祖母;若调查表为F类,则抽取母亲。

按这种方法抽取被访对象的另一个好处是,它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到由这些被访者所构成的个人样本的资料,这种资料可以用来描述这一地区所有成年人所构成的总体。因为由按这种方法抽出来的人所组成的样本,在年龄、性别、文化程度等方面的分布与总体的分布往往十分接近。

下面用一个例子来说明户内抽样的Kish法是怎么用的。比如,调查员随机抽到了编号为F的调查问卷,我们知道这个家庭共有5人,依据F式选择表,得知被抽选的人的序号为5,再由表5-9得知,对应序号5的人是27岁的女儿。因此,就对女儿进行调查访谈。

2.生日法

生日法的基本做法是:①随机确定一年中的某一天为标准日期。为便于计算,通常抽取每个月的第一天,如6月1日或者7月1日,等等;②了解所抽中的户中18岁以上的人口数,以及每人的生日是几月几日;③计算出每人的生日距离标准日期的天数;④从中选出生日距离标准日期最近的人(或者最远的人)作为调查对象。比如,一项调查确定的标准日期为8月1日,所抽中的某户家庭共有5口人,老年夫妇2人,青年夫妇2人,一个上小学的儿童。询问四个人的生日,假设老头子的生日为2月9日、老太太的生日为9月27日、年轻丈夫的生日为6月18日、年轻妻子的生日为5月6日,依据生日法应该抽取年轻丈夫。

表5-9 五口之家成年人排序表

img48

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈