首页 百科知识 随机抽样样本怎么抽取

随机抽样样本怎么抽取

时间:2022-10-20 百科知识 版权反馈
【摘要】:概率抽样也称随机抽样,它的基本原则是必须保证总体中的每一个个体都有同样的概率被抽取为样本。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率抽样。因此,在实际中直接采用简单随机抽样的调查不是特别多。多级整群抽样的每级都会有误差,故误差较大。随机抽样调查的目的是用统计值来估计或推断参数值,在估计和推断的时候,统计值与实际参数值之间的差距就是误差。
概率抽样_社会调查与统计分析实验教材

概率抽样也称随机抽样,它的基本原则是必须保证总体中的每一个个体都有同样的概率被抽取为样本。根据统计学理论,这样得到的样本可以通过统计值,也就是根据样本计算出来的关于样本变量的数量表现,来推论总体的参数值。所谓的参数值,就是指总体的实际数量表现。例如,我们要调查某高校学生的月平均零花钱,随机抽取了200位同学,得到了这200位学生的月平均零花钱,假设为1566.0元。这1566.0元是统计值,该高校学生的实际月平均零花钱数(一个存在但我们尚不明确的数字)就是参数值,我们可以用统计值来推论研究总体的参数值。

概率抽样的时候,需要注意抽样框(sampling frame)的获取,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。有了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率抽样。例如,要从20000名学生中抽出200名组成一个样本,则20000名学生的名册,就是抽样框。常见的抽样框有学生花名册、城市电话号码簿、工商企业名录、街道或派出所的居民户籍册等。

(一)常见的概率抽样方式

1.简单随机抽样

从含有N个元素的总体中直接抽取n个元素组成样本,使每个可能的样本被抽中的概率相等的抽样方式,即简单随机抽样,该抽样方式类似于抽签。简单随机抽样的特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。它要求被抽取的样本的总体个数N是有限的,样本数n小于等于样本总体的个数N。抽样时,每个个体被选为样本的可能性均为n/N,从总体中逐个抽取出来并且不放回。

简单随机抽样的具体操作方法是:①取得总体的样本框;②对总体的每个单位从1~N进行编号;③利用一定的辅助工具进行随机抽样,在没有计算机的时候,我们通常使用随机数表,现在我们可以非常容易地利用电脑随机数生成工具来完成这项工作。这里,我们介绍使用Excel自带的随机数生成工具。例如,我们要从20000个学生当中抽取100位学生作为样本,我们先取得20000个学生的名单,从1到20000进行一一对应的编号,并进行以下操作:

(1)打开Excel软件,在单元格中输入函数“RANDBETWEEN(1,20000)”,如图4 1所示,回车后就产生了1个1~20000的随机数字,这个数字编码所对应的学生就是我们的一个样本。

图4-1 利用EXCEL软件产生随机数

(2)然后把鼠标移至该单元格,待它变成“十”符号时点击左键下拉99个单元格,可以产生另外99个1~20000的随机数,这99个随机数所对应的学生就是我们的样本。

理论上,简单随机抽样相当简易,特别是当总体单位数N不太大时,实施起来确实不困难。但在实际研究当中,当N相当大时,简单随机抽样就比较困难。因为,首先它要求有一个包含全部N个单位的抽样框,而这通常很难办到;其次,用这种抽样得到的样本分散,调查不容易实施。因此,在实际中直接采用简单随机抽样的调查不是特别多。

2.等距抽样

等距抽样,也叫系统抽样或机械抽样,它是首先将总体中各单位按一定顺序编号,根据样本数量要求确定一个间隔,在第一个间隔随机确定起点,然后按照固定的间距抽取一个单位组成样本的抽样方式。它的具体做法是:①将总体的所有个体按顺序编号;②计算抽样间距K,K=N/n,N是总体规模,n是样本规模,例如,从100个个体中抽取10个,则K=100/10=10;③在头10个个体中随机抽取1个数字a,假设为6;④从a开始,每隔K个数字抽取1个个体作为样本,a,a+K,a+2K,…,a+(n-1)K,即编码为6,16, 26,…,96的个体就是我们的样本。

3.分层抽样

分层抽样是指先将总体中所有单位按某种特征或标志划分为若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,将其合成样本的抽样方式。分层抽样操作过程中的分层或分类步骤和定额抽样相同,就是最后从各个类型中抽样时,分层抽样采用的是概率抽样,定额抽样采用的是非概率抽样。

分层抽样的优点:一是能够在不断增加样本规模的前提下,降低抽样的误差,提高抽样的精度;二是便于了解总体内不同层次的情况,便于对总体不同的层次或类别进行单独研究。

4.整群抽样和多级整群抽样

整群抽样是指将总体按某种标准划分为一些子群,每个子群为一个抽样单位,用随机方法从中抽若干子群,将抽出的子群中的所有个体结合起来构成样本的抽样方式。例如,要对某高校学生进行抽样,我们可以以班级为抽样单位,假设该校有300个班级,每班有30位学生,那我们对这300个班级进行编码,从中随机抽取10个班级,这10个班级的所有学生就是我们的样本。

当群与群之间的差异比较小,子群内部的异质性比较大时,比较适合采用整群抽样,特别是总体的抽样框比较难获得的时候。它的优点是实施方便、节省经费;缺点是往往会由于不同群之间的差异较大,而引起的抽样误差往往大于简单随机抽样。

还是高校学生抽样这个例子,如果全校所有班级的名单不容易获得,我们还可以按照隶属关系,把抽样分成几个阶段:大学—学院—班级,从所有的学院中随机抽取2个,在每个抽中的学院里,分别随机抽取5个班级,最后这10个班级的所有学生就是我们的样本。这种按照抽样元素的隶属关系或层次关系,把抽样分为几个阶段进行的整群抽样称为多级整群抽样。多级整群抽样的每级都会有误差,故误差较大。

(二)抽样误差

随机抽样调查的目的是用统计值来估计或推断参数值,在估计和推断的时候,统计值与实际参数值之间的差距就是误差。误差的来源有两种,一种是由于调查中各种人为操作或者测量工具内在的效度、信度问题而产生的误差;另外一种是由于抽样过程所产生的误差,与总体的分布、样本的规模和抽样方法等因素有关,称为抽样误差。

样本规模越大,误差越小,但相应的调查费用也随之增大。我们应该根据研究所能接受的精度和经费限制来选择合理的样本规模。根据统计学原理,在95%的置信度下,样本的规模和容许的抽样误差如表4 2所示。

表4-2 95%置信水平下不同抽样误差所要求的样本规模

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈