首页 理论教育 抽样的目的和方法的分析介绍

抽样的目的和方法的分析介绍

时间:2022-10-12 理论教育 版权反馈
【摘要】:主观抽样法是研究者根据主观意愿进行的抽样。主观抽样法中的一种类型是有效性抽样法,此法是让目标人群自愿选择成为样本。第二个需要考虑的问题是样本容量有多大,人们通常认为抽样的比例很重要,实际上在多数情况下,样本的准确容量更重要,其能决定样本的准确度。

如果测量值不能代表所研究的对象,那么无论进行怎样精确的测量都是无用的。为了了解什么是“代表性”以及如何获得具有“代表性”的测量值,必须考虑抽样的方法。

(一) 抽样的目的

要说明抽样的目的,先看下面几个例子:

(1) 通过从30个气象站获得的测量值,研究上海的气候。

(2) 通过网格法采集30个水样,考察太湖水体富营养化程度。

(3) 通过询问300名路人,调查交通噪声产生的影响。

在以上几例中,由于不可能获得研究对象的所有相关测量值,就采用了获取一定数量测量值的方法。虽然很难证明30个气象站的测量数据能揭示整个上海的气象状况,但在缺少大范围连续的气象测量数据时,这种抽样方法是达到研究目的的唯一可行方法;与此类似,由于成本、人员等条件的限制,不可能采集更多的水样,通过网格法采集的30个水样所得出的结论,可以用来推知太湖水体富营养化程度;同样的,详细咨询300名路人可以获知人们对交通噪声产生影响的普遍反应。上述例子,都从我们所感兴趣的较大群体中选取了一批样本进行详细研究,这个较大群体被称为总体。

(二) 抽样的方法

1. 主观抽样。主观抽样法是研究者根据主观意愿进行的抽样。例如,一位科学家要研究某个区域土壤重金属污染的状况,他可能只选择位于一条主干道边的20个暴露区,因为这些点位容易采集;一个考古学家可能花大量时间收集化石,但他抛弃所有残缺的或有瑕疵的标本,仅留下他认为完美的一些化石标本;一个调查者很可能只是站在繁华的街道旁,询问那些看起来较为友好的路人关于交通噪声产生影响的反应。上述这些抽样方法也许都有很好的理由来支持,但都存在着一个很大的缺陷,即抽样的代表性差,存在着偏差,因此从有目的的主观抽样中所获得的测量值可能无法得到关于总体的可靠结论。

主观抽样法中的一种类型是有效性抽样法,此法是让目标人群自愿选择成为样本。例如,为了研究机场附近居民受噪声干扰的情况,在一个电台节目中进行广播,请求当地居民提供帮助,那些自愿提供帮助的人就成为调查样本。这种抽样法不够全面,因为有可能提供帮助的只是那些善于表达的或者非常贫困的,又或者是那些喜欢这个广播节目的人以及激进分子。因此,数据统计分析中必然存在偏差。另一种相对较好的方法是定额抽样法。这种方法试图抽取目标人群中有代表性的样本,并且样本包括正确的老少比例、贫富比例、男女比例等。这种抽样方法要事先设计好样本中包含的每种类型的人数,然后再派出调查者按定额调查。但是,由于调查者通常都是按照受访者的外表来进行选择,调查者的偏见很可能会影响结果,并且,如果某种类型的受访者人数事先定额多,而在调查现场遇到的少时,调查者很有可能会捏造信息来完成定额。

2. 概率抽样。概率抽样以概率理论为依据,通过随机化的机械操作程序取得样本,不存在由调查者喜好所产生的影响,所以能避免抽样过程中人为因素的影响,保证样本的客观性。虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,总体中的任意个体都有独立和均等的机会被挑选为样本,而且能计算和控制抽样误差,因此,根据样本调查的结果,通过使用统计学方法可以推断总体,也可在一定程度上说明总体的性质、特征。概率抽样主要分为简单随机抽样、系统抽样、分类抽样、整群抽样、多阶段抽样等类型,现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。概率抽样应满足的要求是:① 随机性,总体中的所有个体都有同样被抽出的机会; ② 可行性,抽样的方法在实际中是可实施的; ③ 信息性,抽得的样本尽可能反映出分析时所期望的各种信息。

最基础的概率抽样法是简单随机抽样法,这种方法能够使目标人群中的每一个人受访的概率相等。实施简单随机抽样法的第一步,是草拟出抽样框架,也就是拟出一份目标人群成员的清单;然后,将抽样框架中的所有人进行编号,并用轮盘随机地选择号码,从而抽取对应号码的人为调查对象,组成样本。以下用一个社会调查的例子来说明概率抽样的方法。

假设要在一个有着30000人口(成年人)的小镇调查交通噪声对居民睡眠所产生的影响,虽然小镇上30000名居民都是调查者感兴趣的研究对象,但可行的做法是只调查其中的一部分。例如,调查300名居民,通常可以从选举人登记表获得所有成年居民的姓名及地址。为了在选举人登记表中选择300名居民作为样本,并且使名单上的每个人都有着独立、均等的机会被挑选,需要将名单上的所有人进行1~30000的编号,然后随机从编号中挑选出300个数字,这种获得样本的方法称为简单随机抽样。

由于上述方法较为单调乏味,通常使用随机数字表进行随机选择。这种方法首先要将电脑编程,使电脑连续上千次地随机输出0~9之间的任意数字,并形成一张充满数字的表格,然后随意地用铅笔在表格内选择一个数字,并列出从所选数字开始,或上或下或左或右的任意一组数字。例如:

371473353201079478289033715607465058087342972

由于我们仅对1~30000以内的数字感兴趣,则将上述数字分成各为5位数的一组数字:

37147 33532 01079 47828 90337 15607 46505 80873 42972

所有在00001—30000之外的数字都略去不计,只记录在此范围内的所有数字,直到记录下300个数字为止,这些数字被称为简单随机样本。

第二个需要考虑的问题是样本容量有多大,人们通常认为抽样的比例很重要,实际上在多数情况下,样本的准确容量更重要,其能决定样本的准确度。样本的容量增加时,准确度也会提高,抽取的样本容量取决于所需要的准确度。一份初步的调查可能只需要使用少数的样本,而更权威的调查就需要更大的样本容量。统计学理论根据需要达到的准确度水平,给出了一个确定样本容量的公式:

式中,N是样本容量,σ是变量x标准偏差的最佳估值;E是至少95%的概率对应的误差临界值。例如,要了解一个小镇实施纸张循环使用的可行性,就要先调查小镇居民每周产生的废纸量。对于小镇上家庭的抽样调查是收集这些信息的很好方法。要解决的问题就是,要调查的样本容量是多少?我们假定评估的变量是每周每个家庭产生废纸的平均质量(kg),其标准偏差是8.4 kg,并且估计误差不超过1.5 kg的概率是95%,可以用以上公式得到样本容量:

那么,需要调查的家庭数为120。

这种方法看起来很简单,然而实际应用中存在一些问题。首先,一些重要的信息,如所估计变量的标准偏差的准确度未知,事实上,这通常是进行调查的目的。由试验性调查得到的信息可以帮助解决此问题,但试验性调查通常涉及使用小样本,从而使得到的结果准确度不高。其次,一份调查问卷中通常包含很多变量,各变量都有不同的标准偏差,因此相应的样本容量也不同,从而可能导致样本容量对一些问题来说太大,而对一些问题来说太小,因此,决定正确的样本容量不仅要靠统计学理论,还要靠调查者的思考与判断。通常所决定的样本容量,是通过折中考虑调查所要完成的目标和所掌握的资源而得到的。

(三) 空间抽样

科学研究的现象常常是无法被编号或是服从普通概率抽样程序的个体“事物”。如地质学家们最经常面临上述问题,因为研究对象通常深埋于地下,他们必须从暴露区获得研究对象,或者是通过野外钻孔得到刚好可用的研究物,在这样的条件下,很难证明一个样本是无偏差的;而在环境科学的一些分支领域中,人口虽然容易被抽样得到,但问题是人口并不像研究植物、动物或者建筑物那样容易辨认和区分;空气、土壤、水和岩石是经常考察的介质,而气温、土壤深度和水的盐度等都是连续变化的,对于这种类型的变量,位置的选择通常是抽样程序的基础。测量是在特定的点、直线(曲线)或特定的样方内进行,许多方法可以用于确定点、线和样方采样的位置,这里只介绍确定抽样点常用的方法,而线和样方抽样遵循同样的原则。

1. 随机布点法抽样。首先作出一张覆盖整个区域的格子图,并将图中每条构成格子的轴线编号,决定采样点样品数后,每个抽样地点的选择都要求先随机选择两个数字,第一个数字代表南北方向轴线的编号,第二个数字代表东西方向轴线的编号,两条轴线的交点即为所选择的抽样地点,重复上述步骤直至选择足够多的点位为止。这种抽样操作简便,研究区域内的每个部分都有均等和独立的机会被选择为抽样点位,但随机抽样经常导致不均等的区域覆盖率,无法考虑区域空间的自相关性,当样本总体呈偏态分布时,增加错误估计的概率。

2. 规则网格布点法抽样。起始点位是随机决定的,而其他所有点都是由一个固定间距决定,这样就能得到一个均等的分布覆盖率,但采样的精度受样本数量的限制,而且如果数据中有一个空间模式被选择,那么通常的空间抽样点位可能会与模式的一些部分相关,从而得到一个有偏差的结论。

3. 四杈树布点法抽样。将研究区域四等分,并对各区域研究对象的属性进行方差分析,方差较大的区域不断地进行四等分,直到方差较大值小于指定的阈值为止,每个区域内随机选取一个采样点。这种抽样设计依据研究对象的空间变异程度或密或疏地布点,在保证良好分布覆盖率的同时,保留了随机抽样性的优点,提高了采样效率,但不适合对空间分布特征未知区域的首次采样设计。采样点的设计如图11—1所示。

图11—1 采样点的设计

(四) 时间抽样

科学工作者经常遇到的另一个抽样困难是对于随时间变化的变量,如何获得有代表性的测量值。许多环境变量都随时间呈现定期或半定期性的波动,这些波动有些容易被鉴定为周期性的循环,并通常与明显的物理因素相联系。

对于周期性循环的变量,如城市交通流量的日变化或者气温的年变化,少于一个完整循环周期的观察值只能揭示变量发生的部分变化,这些数据只能显示“趋势”,即观察值随时间减少或增加,虽然有时由于特定的原因只需考察一个时间周期中相对短的时间段,但一般而言,观察周期都应该是整个循环周期的倍数。某个地区1951—1980年内获得的气象观察值所带来的问题,可以说明为何需要仔细考虑观察周期的长度,基于这30年的气象观察数据,气象学家通常用于估计该地区两百年一遇的暴风雨等级,或者估计五百年一遇的阵风风力,不只是当地气象学家对这些极端气象的预测结果感兴趣,建筑业以及市政部门也需要这些资料进行规划。可是,当人们仔细考察了1980年之后以及1951年之前的数据,也就是将1951—1980年内这一常规周期置于近1 000年的气象数据背景之中时,却发现这30年的气象规律变得极不常规了。因此,通过使用概率统计学,从一个常规周期外推得出正确结论存在着困难。

一旦确定了观察周期,在此周期内的观察频率很大程度上取决于调查的性质。每4小时测量一次海洋温度也许可以为研究洋流中的小型涡流提供有用的信息,但是对于研究世界范围内捕鱼与海温关系的科学家来说,这种观察频率获得的信息就过于繁杂。在科学研究中,经常遇到由于没有进行试验性研究导致很难确定抽样频率,有时甚至在研究结束时也很难确定抽样频率,因此,许多研究者陷入一个理解误区,认为进行高频率的抽样可以将所有可能发生的情况包含入内,这种情况要尽可能避免,否则处理数据将是一个非常棘手的问题。

时间抽样和空间抽样一样,都要遵循一种随机或系统的设计,但在时间抽样中,系统抽样更为常用。正如空间的系统抽样,以固定的时间间隔获得观察值,可能会导致只记录周期内同一时段的数据,而失去数据变动的重要部分,在时间抽样中,这种偏差类型被称为“失真”,将观察值除以固定的时间周期获得平均值时,也会产生失真问题。以不规则的时间间隔进行随机抽样是避免失真的有效措施,但是在需要花费一定时间完成各随机抽样的实验中,此方法不太可行。认识到失真的可能性,并尽量仔细考虑研究中的每个物理过程,通常是避免失真的最佳防范方法。理解一个周期内波动的最佳方法是采用多批测量值,每批测量值都与周期内的特定时间段相关。例如,为了理解气温这一气象变量的日变化波动,每两个小时获得一个观察值,这样就能获得均匀分布于24小时周期内的12个观察值,重复测量8周,可以在周期内的12个时间段提供54个失真观察值。

时间抽样的另一种复杂情况是一个变量此时所获得的一个测量值可能与第二个变量稍后获得的测量值相关,因变量对自变量的响应通常表现为时间滞后。例如,蟑螂对于光照强度提高所产生的回避行为中,这种滞后可能比较短,而研究冰川对全球气候变化的响应时,这种滞后则比较长。因此,若不是以适当的频率获取观察值,则就无法获得研究这种响应关系的可靠数据。理解所研究的环境过程,是确保研究时间滞后关系时数据可靠性的最佳方法。

当我们在设计一个实验和分析数据时,上述所有关于时间抽样的思考都要牢记于心。大多数的实验都是在对实验目标、可用的仪器、抽样的思考以及所研究变量的物理性质这几点折中考虑的基础上开展的。任何调查获得的结果,很大程度上是由所应用的测量方法决定的,正如本章所述,不了解测量方法的优缺点,则就不可能得到科学的结论。

思考与讨论

若现在要对我校学生的课业负担状况作一抽样调查分析,请你对拟抽样样本数量、方法和分布等情况作一说明。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈