首页 百科知识 社会统计资料的搜集

社会统计资料的搜集

时间:2022-10-21 百科知识 版权反馈
【摘要】:社会调查就是统计资料的搜集。由于次级资料一般都是从原始资料过渡而来的,社会统计调查所搜集的资料主要是指原始资料。社会统计调查是统计整理、统计分析、统计预测和统计决策的前提,因此,所搜集的资料必须满足准确性、及时性和完整性的要求。社会调查按照搜集资料的组织方式不同,可分为专门社会调查和统计报表调查两种。普查作为一种一次性的全面调查,对资料的准确性和时效性要求高。
社会统计资料的搜集_社会统计学

第一节 社会统计资料的搜集

社会调查就是统计资料的搜集。它是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料和次级资料的过程。原始资料又称初级资料,是指为了研究某个问题而进行实地观察,或通过调查从党政机关、企事业单位、学校和其他团体获得的未发表过或未使用过的第一手资料。次级资料是指借用原来已经过加工的现成资料,例如从统计年鉴、网络报表、报纸杂志上摘引的资料。由于次级资料一般都是从原始资料过渡而来的,社会统计调查所搜集的资料主要是指原始资料。社会统计调查是统计整理、统计分析、统计预测和统计决策的前提,因此,所搜集的资料必须满足准确性、及时性和完整性的要求。

常用收集统计数据的方法有:直接观察法要求派员对调查对象进行观察调查;报告法要求被调查者根据要求填表并送回;登记法要求被调查者到某机构或场所,填写所需登记的内容;采访法采用被调查者自填或口头询问的方法获得调查数据。随着现代信息技术的发展,计算机、电话、网络、卫星遥感、地理信息系统和光电技术已被广泛引入到数据收集领域中。

社会调查按照搜集资料的组织方式不同,可分为专门社会调查和统计报表调查两种。专门社会调查是指为了某些特定目的而专门进行的调查。这种调查多属一次性调查,经典的常用社会调查研究方法有普查、抽样调查和重点调查等,其中前两种常被用来估计调查总体。

一、普查(Census)

普查是专门组织的一次性全面调查。如人口普查、工业普查、农业普查和商业普查等。普查所搜集的资料表明某社会经济现象在某一时点的状态,或过去某一时期某事件的回忆,时间要求很强。普查工作多在全国或较大范围内进行,需要动员大量人力、物力和财力。因此,只有需要摸清国家重要的国情、国力时,才有可能和必要在全国或较大范围内组织普查。联合国建议尾数为0或1年进行人口普查,自1990年以后,国务院规定我国每隔10年进行一次人口普查。根据国际经验,工业普查、农业普查和商业普查等基本上也是每隔10年进行一次。

普查的组织方式一般有两种:一是组织专门的普查机构,配备一定的普查人员,对调查单位进行直接的登记,如人口普查、工业普查等;二是利用调查单位的原始记录和核算资料,颁发一定的调查表格,由填报单位进行填报,如库存物资普查等。普查作为一种一次性的全面调查,对资料的准确性和时效性要求高。普查的面广量大,要求有更多的集中领导和统一行动。在组织普查工作中须注意以下几点。

(1)规定统一的标准时点。标准时点是指对被调查对象登记时所依据的统一时点。这个时点一经确定,所有调查资料都要反映这一时点上的状况,以避免搜集资料时因情况变动而产生重复登记和遗漏的现象。而实际调查登记工作时间可以在其后或其前,大多在其后。我国前四次人口普查的标准时点为7月1日0时,第五次(2000年)及其以后人口普查的标准时点为11月1日0时,前一时点可以反映我国人口的年中人口或年平均人口,后一时点可避免南方农忙时间。若双胞胎在普查时点出生的可参加计数,其后出生则不参加统计。发生在普查时点前死亡,普查时该人已不存在,不参加统计;普查后死亡,则需要进行基本情况统计。

(2)确定统一的普查期限。在普查范围内各调查单位或调查点尽可能同时进行普查,并尽可能在最短的期限内完成,以便在方法上和步调上保持一致性,以保证资料的准确性和时效性。例如,我国人口普查,调查登记期限一般规定在10天内完成。

(3)规定普查的项目和指标。普查项目和指标一经规定,不准任意改变或增减,以免影响汇总综合,降低资料质量,同一种普查,每次项目和指标应力求一致,并按一定的周期进行,以便更好地进行历次调查资料的对比分析及观察某种现象变化发展的情况。1953年我国第一次人口普查调查家庭和个人项目分别是3项和5项;1964年分别变化为2项和8项;1982年我国第三次人口普查,调查家庭和个人项目分别为6项和13项;1990年增加了个人户口性质和前5年居住地,共为21项;2000年分为长短表普查方式,90%的居民填写简单的短表,包括家庭和个人项目分别为9项和10项,同时10%的居民填写较复杂的长表,包括家庭和个人项目23项和26项。具体用随机的方法,决定哪些居民用长表。

快速普查是一种特殊的普查。就其进行的方式而言,属于第二种普查方式,即利用原始资料或核算资料由填报单位进行直接填报。目的主要是为了满足国家社会经济发展的迫切需要,普查任务布置和资料报送越过中间一切环节,普查资料直接报送到最高一级普查机构集中汇总。快速普查一般是调查内容少、涉及范围小的项目。

正式的普查需要动用大量的人力、物力和财力,非政府机关根本无法进行。以一个调查样本为10元计算,加上分析、资料处理为10元,如果一次调查10万个样本,总费用为200万人民币。而10万样本仅相当于一个小城镇,因此,普查的设计一定要十分慎重。

二、抽样调查(Sample Survey)

抽样调查是指根据随机原则从调查总体中抽取部分单位进行观察并根据其结果推断总体数量特征的一种非全面调查的方法。抽样调查与其他调查方法之间最大的不同点是,抽样调查是从总体中随机地抽取部分单位进行调查,而其他调查则是从总体中有意识地选择部分单位作为调查的对象。抽样调查的目的是为了推算总体,而其他调查方法难以实现。

抽样调查可节省人力、物力,减少调查时间,提高调查质量,因而应用广泛。例如,职工家计调查、居民收入调查、生活水平调查和市场调查等,由于这些调查范围广,不可能或不必要进行全面调查,就可用抽样调查。有时由于调查本身具有破坏性,例如显像管的平均使用寿命、钢丝的拉力强度、炮弹的射程和节能灯的使用寿命等,也只有采用抽样调查的方法获取所需要的资料。

1.抽样调查的概念与特点

抽样调查是从调查对象的总体中抽取某些单位(或个人)作为样本进行调查。并以样本的状况来推论总体状况的调查类型。从总体中取出部分的过程叫抽样,抽出的这一部分单位称作样本或子样。抽样调查具有如下性质:

(1)调查费用较低,抽样调查涉及的只是总体中的一部分。

(2)速度快,能够及时了解和把握社会现象的变动。

(3)应用范围广。抽样调查可用于各个领域,各个部门,各个课题。

(4)可获得内容丰富的资料。抽样调查可设置较多和较复杂的调查项目,能集中时间和精力作详细的分析。

(5)资料的准确性高。由于抽样调查样本少,可以使用少量素质较高的工作人员并对他们进行充分的训练,还可以在实地调查中给予更仔细的检查与监督,调查资料的处理亦能较好完成,因此,与普查相比,抽样调查的资料往往更准确和可靠,当然其前提是随机性高、抽样比例合适、抽样组织好。

抽样调查成功的关键在于所选取的样本能够代表总体,即抽取出来的样本从调查所要研究的总体特征看,能够再现总体的结构。样本的代表性主要取决于以下三个因素:

首先,抽样方法的选择。抽样方法可分为概率抽样与非概率抽样两种。概率抽样依据抽样理论和严格的抽样程序,使总体中每个单位被抽取的概率为已知。非概率抽样只是根据研究任务和对调查对象的分析,主观选取样本。用概率抽样法抽取的样本能有较高的代表性,因为它避免了抽样者在抽样过程中有意或无意的偏差(也称系统性误差)。社会调查、社会研究中往往采用非概率抽样调查方法。

其次,样本的大小,又称样本容量,指样本内所含单位的数量。样本代表性与样本大小密切相关。样本越小,代表性越低,但样本越大,抽样的成本就越高。样本数的确定应考虑容许误差的大小、总体的性质及客观的人力、财力、物力制约。

再次,抽样的组织方法,具体抽样并非采用完全的随机抽样,而采用分阶段抽样、整群抽样和等距抽样等,各种抽样组织方法下,相同的样本容量对于总体的代表性也是不一样的。有些效益好、有些效益差。

最后,对总体的界定与了解。总体是在理论上有明确定义的研究单位集合体。例如关于妇女生育率的研究中,15-49岁有生育能力的妇女即为调查研究的总体。严格的概率抽样可获得代表性较高的样本,但这是建立在对总体正确界定和充分了解的基础上。否则,尽管采用随机抽样方法,仍难免失败。如1936年美国《文摘》关于总统选举民意测验的失败,就是因为对总体的错误界定,它以电话簿和汽车注册簿上的选民为总体、忽略了没有家庭电话和私人汽车的大多数选民。

2.抽样的基本程序

(1)界定研究调查总体,根据研究目的,给出具体操作化的研究对象总体。比如农民工的抽样调查主体可以是“户籍在农村,在城市或城镇生活并从事第二、第三产业工作的劳动者”。某区老年人口抽样调查主体可以是“本人60周岁及其以上,在该区连续居住6个月以上的老年人”。

(2)编制总体名单,确定抽样框。编制已确定的抽样范畴内的抽样单位名单。如进行家庭调查,可一步取得所有家庭的地址,但更多的是逐步取得各层次的地址。先在某城市中抽取若干个区,然后在所抽区中抽取某些街道,在所抽街道中抽取某些社区,最后从所抽社区组成样本中抽取家庭。对应编制的总体名单为:全部区的名单,某些抽中区样本中所有街道的名单,抽中街道样本中所有社区的名单,抽中社区样本中所有家庭的名单。

(3)确定样本大小(容量)和选择具体抽样组织方法:样本容量和抽样组织方法有关,样本容量的设计同样必须考虑经费、人员和时间的多寡。

(4)抽取样本:按照原来设计的方案抽取样本,组织调查。

(5)搜集资料:进行实地调查,把握调查节奏,提高调查质量。

(6)对抽样样本的代表性进行评估。

3.概率抽样

概率抽样按照组织方法可以分为简单随机抽样、等距抽样、分层抽样和整群抽样,以及结合使用上述两种或两种以上抽样方法的多阶段抽样。

(1)简单随机抽样(Simple Random Sampling)

简单随机抽样又称纯随机抽样,是一种最基本的概率抽样,分为重复抽样和不重复抽样。重复抽样即每次抽中的单位仍放回总体,样本中的单位可能不止一次被抽中,这是一种理论上的抽样。不重复抽样即抽中的单位不再放回总体,样本中的单位只能抽中一次。实际调查往往采用不重复抽样。

简单随机抽样的具体作法以前有随机数字表。而在Excel软件中,选择其他函数中的Rand between(Bottom,Top),即可获得在Bottom和Top之间的随机数。比如在1到999之间可选择20个随机数。

具体是在Excel软件中第二行,打开∑号旁的向下箭头,选择其他函数即打开函数参数,在其“选择类别”中选择“全部”,同时在“选择函数”下选择“Rand between”,如图2.1,按确定键后得图2.2,输入最小最大值,按确定键后就可获得在最小最大值之间的随机函数。如果需要多个相同范围的随机数,可将鼠标放置在原随机数右下角,鼠标由原来空心的“╬”转变成实心的“+”,按住鼠标往下或往右拖拉,即可获得所需要的随机数。注意,这时的数据是多变的,尚需要将该数据覆盖并复制,选择另外相应区域,用选择性粘贴相应“数据”,才能将这些选定的随机数据确定下来。

img2

图2.1 插入函数选择图

img3

图2.2 随机函数范围选择图

简单随机抽样必须有一个完整的总体各单位的清单,当统计总体太大时,比如某城市所有家庭,再如,某高校所有学生等,由于制作清单很困难,这种抽样方法实际较少采用。

(2)系统抽样(Systematic Sampling)

系统抽样又称等距抽样,是简单随机抽样的变种。为了避免抽取过多的随机数,而进行等距抽样,这种抽样应该是等距和均匀分布在整个样本之间。具体将总体从1~N依次编号,并计算抽样距离K=N/n(式中N为总体单位总数,n为样本容量),然后在1~K中抽一随机数k1作为样本的第一个单位,接着取k1,k1+K,k1+2*K和一直到抽够n个。

如设某大学有10000名学生,决定采用等距抽样的方法从中抽查200名学生,这时的等距离K=N/n=10000/200=50,用简单随机抽样的方法在前50名学生中抽出第一位学生,设其序号为18,则第二位学生的序号为18+50、第三位学生的序号为18+2×50,……即每隔50人抽1人,直至抽够100人。每年中国邮政贺卡中奖号码就是以这种方法产生的。

等距抽样既可按照有关标志排序,又可按照无关标志排序。如调查学生成绩时,按照学号排序为无关标志排序;而调查学生的姓氏笔画时,按照学号排序为有关标志排序。按照有关标志排序时要防止周期性偏差,有时其会降低样本的代表性。如军队人员名单通常按班排列,10人一班,班长排第1名,若抽样距离也取10,则样本全由士兵组成或全由班长组成。学生学号是按照姓氏笔画排序的,若抽取各班人数的前几名,抽取的都是笔画少的同学。

(3)分层抽样(Stratified Sampling)

分层抽样又称类型抽样,是指先依据—种或几种特征将总体分为若干个子总体,每一子总体称作一个层,然后从每层中随机抽取一个子样本,这些子样本合起来就是总体的样本。常用的确定各层样本数的方法有两种:一是定比分层法,即各层样本数与该层总体数的比值相等。例如,总体N=5000,样本大小n= 50,则样本比例为n/N=1%,每层均按这个比例确定该层样本数。二是非比例分层法,当某个层次包含的个案数在总体中所占比例很大时,为使该层的特征在样本中得到足够的反映,可人为适当地增加该层样本数在总体样本中的比例。当然,这样做会增加推断总体的复杂性。比如某区老年人口10000名,其中80岁以上1500名,70~79岁3500名,60~69岁5000人。若按照定比分层法1%抽样,则抽取80岁以上15人,70~79岁35人,60~69岁50人;若按照非比例分层法1%抽样,则抽取80岁以上25人(1.7%),70~79岁35人,60~69岁40人(0.8%),合计样本仍然是100人。但这样,既可更仔细地观察小样本情况,通过不同权数的加权,也可获得与定比分层同样结果。具体选择哪种方法取决于研究的需要。

(4)整群抽样(Cluster Sampling)

整群抽样又称聚类抽样,将总体按照某种标准分为不同的群,每个群为一个抽样单位,用随机的方法从中抽取若干群,对抽中样本群中的所有单位进行调查。这样抽样的优点是避免样本过分分散而引起调查经费、调查精力的增加。整群抽样分类的原则是使群与群之间的差别尽可能小,而群内部样本的差别尽可能大。比如某区有10000个老年人口进行5%抽样,该区有8个街道,下分60个社区,为减少抽样及实际调查的工作量,可以采取整群抽样,随机抽取3个社区进行全面调查,然后按比例推断全区老年人口情况。

(5)多阶段抽样(Multistage Sampling)

多阶段抽样又称多级抽样或分段抽样,是上述四种抽样方法中的两种或数种的综合。大范围的调查往往采用分层整群抽样。下面是一个某区老年人口生活质量调查的抽样过程,这一调查欲抽取5%居民以了解全区居民经济收入、生活状态等情况。具体抽样过程如下:

①首先抽取该区50%的街道,某区8个街道中共抽取4个街道;

②再在抽中街道抽取40%的社区,总的抽样比仍然为50%*40%=20%,假如抽中的街道分别有社区8、12、7、4个,则分别抽取3、5、3、2个社区;

③在抽中社区继续抽取25%的居民小组,总的抽样比仍然为25%*20%= 5%,用随机方法决定哪4个社区的哪些居民小组,并对抽中居民小组进行全面调查(普查)。

概率抽样调查的目的是为了估计总体,但其所花费资金仅次于普查,而且抽样方案必须设计完备,仅能推断一个总体,调查必须是随机的,否则往往难以估计总体。全国1%人口抽样调查,仅能推断全国情况,若估计、推算各省情况时,往往会发现有较大误差。

(6)不等概率抽样(Sampling with Probability Proportional to Size)——PPS抽样

PPS抽样又称概率与样本规模大小呈比例抽样。多阶段抽样暗含一个假定,每个阶段样本规模是相同的。如第一阶段抽取的街道,每个街道中的居委会数量相同;第二阶段抽取居委会,每个居委会中家庭户数量相等。在这样的假定下才能保证最终每户被抽中的概率相同,但实际是十分困难的。假如进行两阶段1%家庭户抽样调查,第一阶段从全市100个居委会、100000户居民中抽取20%的居委会,第二阶段在抽中居委会中的20个居委会中各抽取50个家庭户,最后对中选的1000户家庭进行调查。但是,每个居委会的实际户数是不一样的,甲居委会为1600户,乙居委会为400户,对这两个居委会而言,第二次抽50户相当于分别抽取3.1%和12.5%的样本,乙居委会家庭户被抽中可能性很大,这就违背了概率相同的原则。于是,可以作如下设计,将一级抽样(居委会)单位排列起来并给出其样本量(家庭户数),计算其在总体中的比例和累计比例,写出对应的号码范围,进行随机抽样或等距抽样,所选样本为一级样本,对每个入选样本,抽取50户为二级抽样单位(如表2.1)。

表2.1         用PPS方法抽取第一阶段样本

img4

续上表

img5

PPS抽样需要知道每个一级样本单位的样本量,实践上有时是困难的。如果对企业职工进行PPS抽样,不知每个企业的职工人数就无法抽样,进行调查。这限制了该方法使用。

4.非概率抽样

概率抽样一般是大范围抽样,如果在经费比较充足,对总体推断要求比较高的情况下是适合使用,如政府某部委、各级统计部门常使用该方法。但对于一般社会调查,尤其是小样本社会现象的调查,如吸毒人群、高档消费人群的调查并不适用。因此,应该根据社会研究任务的要求和调查的性质,经常需要主观地、有意识地从总体中选取被认为在某种意义上能较好代表总体样本的方法,这就是非概率抽样。其具体可分为:

(1)偶遇抽样

研究者将在其一时间和环境中,偶然所遇到的每一总体单位均可作为样本成员进行调查,比较典型的是街头拦人法。社会学常采用该方法,不同时间不同地点遇到的人不同,比如在商业中心进行的调查,一般都是有闲时、有购买商品倾向的人员,并非完全的随机抽样。

(2)判断抽样

判断抽样又称立意抽样。研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。比如用高收入人群作为代表研究高消费人群的基本情况,或用娱乐场所消费人群了解涉毒人员的情况。这种调查常用于总体小、内容差异大,且总体边界无法确定。

(3)定额抽样

定额抽样又称配额抽样,类似于概率抽样中的分层调查。按调查对象的某种属性或特性将总体中所有个体分成若干类或层,然后按各层样本数与该层总体数成比例的原则主观抽取样本。如研究家务劳动的分配,考虑到婚姻与性别都可能对其有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各个组按一定比例抽样调查。

(4)滚雪球抽样

受调查对象数量所限,难以建立抽样调查框,难以获得相应比例,有时甚至难以接触到调查对象。这是,以若干具有所需特征的人为最初调查对象,然后依靠他们提供认识的合格调查对象进行调查,样本如同滚雪球由小变大。如对性工作者、同性恋、吸毒者等的研究,常可用这种方法。

非概率调查对于了解样本的社会属性十分重要,但是难以估计总体规模。

三、典型调查

典型调查是一种非全面调查,具体是根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查。这种调查与其他调查方法相比,具有这样的特点,即调查单位是在对调查对象全面分析的基础上有意识地选择出来的一种深入细致的调查方法。所以,其本质上是一种定性调查方法。

典型调查的作用在于:(1)可以研究新生事物或典型事例的情况,也可以作为其他统计调查的补充;(2)在一定条件下,可验证全局调查数字的真实性,也可以利用典型调查的资料来估算总体数字。社会学主要用来调查研究新生事物或典型事例。

典型调查有两种选点方式:(1)如果在调查单位之间差异较小,或者样本比较少时,可选择一两个典型单位进行“解剖麻雀”式的调查;(2)如果作为调查对象的各单位之间差异较大,或者样本比较多时,可采取“划类选典”的办法,把总体分成若干类型,然后在每一类型中选择典型进行调查。

四、重点调查

重点调查是指只在调查对象中选择一部分重点单位进行调查,借以了解总体基本情况的一种非全面调查。重点单位是指其在总体中具有举足轻重地位的单位。这些单位数量虽少,但它们调查的标志值在总体标志值中占有绝大部分的比重。通过对这些单位的调查,就能取得反映总体的基本情况。例如,某市金融保险企业、机关学校、水电气行业和离退休协会等几个企业,虽然在某市企事业单位中只是少数,但它们的旅游人数却占较大比重。对这些重点单位进行调查,比旅游质量的全面调查要省时省力,且更能及时地了解全市旅游业的基本情况。

当调查任务只要求掌握调查对象的基本情况,而在总体中部分单位又能较集中地反映所要研究的问题时,进行重点调查是比较适宜的。组织重点调查的重要问题是确定重点单位。重点单位选多选少,要根据调查任务确定。一般来说,选出的单位应尽可能少些,而其标志值在总体标志值中所占的比重应尽可能大些。这样,选中的单位能提供较为可靠的资料,从而能达到重点调查的目的。也有一些调查中,不存在重点单位,因此无法进行重点调查。

五、统计报表

统计报表也是社会资料搜集统计的方法之一。统计报表有定期、临时和全面、非全面之分。主要的统计报表是全面的、定期的统计报表。统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供统计资料的一种统计调查方法。

统计报表根据其性质和要求的不同,有如下几种分类:

(1)按调查范围的不同,可分为全面和非全面统计报表。全面统计报表要求调查对象中的每一个单位都要填报,而非全面统计报表只要求调查对象中的一部分单位填报,它需要结合重点调查、典型调查和抽样调查来应用。目前,我国大多数报表是全面统计报表。

(2)按报表内容和实施范围的不同,可分为国家统计报表、部门统计报表和地方统计报表。

(3)按填报单位的不同,可分为基层统计报表和综合统计报表。

统计报表的资料来源于基层单位的原始记录。从原始记录到统计报表,中间还要经过统计台账和企业内部报表。因此,建立和健全原始记录、统计台账和企业内部统计报表制度,是保证所搜集到的统计资料具有高质量的基础。

统计报表作为一种统计调查的方式,也有其局限性。因此,统计实践中要把统计报表和专门统计调查方法结合起来应用。

上述各种统计调查方法分别具有不同的特点、作用及局限性,在实践中,要注意各种统计调查方法综合应用和选择,才能搜集到所需的统计资料。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈