首页 理论教育 问卷的审核

问卷的审核

时间:2022-04-22 理论教育 版权反馈
【摘要】:问卷的审核一般是指对回收问卷的完整性和访问质量的检查。而对于另一种不准确的情况,例如仍是对每天收看电视时间这个指标,某个访问员记录的是“很少”,这时审核员也没有办法改正,只能根据情况采用其他的方法去处理,如再向被访者询问或作为无回答处理。不过,不满意的问卷与满意的问卷之间一般都会有差异,这个因素会使调查结果产生偏差。不过,这样做需要在满足以下前提的条件下进行:①有不满意答案的问卷份数很少。

三、问卷的审核、编码、录入与统计预处理

不论以哪种方式收集到的定量研究资料,最终都要用适当的统计分析软件(如SPSS、SAS等)进行电脑处理和分析,可以进行分析的数据一般都是以表格的形式存储在磁盘上的。除了CATI电话访问、网上调查和一部分电子邮件调查直接可以获得分析用的数据之外,其他的调查方式获得的以笔和纸记录的调查资料,都需要一个对资料的审核、编码、录入、查错以及统计预处理的环节,目的是得到干净的可供分析的数据。这是一个非常重要的环节。因为一项调查即使其他的每一个过程都控制得很好,如果在这个环节引入人为误差,调查的质量仍然会受到很大的影响,其他一切努力都白费了。数据处理中的人为误差可能在编码、数据录入等过程发生,如果在进行这些工作时进行认真严格的质量控制,大部分误差都是可以避免的。

(一)问卷的审核

虽然在调查实施的过程中一般都有严格的质量控制措施以保证调查的质量,同时也有督导员进行问卷的审核工作。但在时间紧迫和问卷数量较多的限制下,回收到的问卷中仍然可能会存在这样或那样的错误和疏漏,所以问卷回收后的第一步工作仍是集中人力对原始调查问卷进行审核。

问卷的审核一般是指对回收问卷的完整性和访问质量的检查。目的是要确定哪些问卷可以接受,哪些问卷要作废。审核前要首先规定若干规则,使审核人员明确问卷完整到什么程度才可以接受。例如,至少要完成多少,哪一部分是应该全部完成的,哪些缺失数据是可以容忍的,等等。对于每份回收的问卷都必须彻底地检查,以确认访问员是否按照指导语进行了访问,并将答案记录在了恰当的位置上。

1.问卷审核的原则

即使是由不同的人同时进行资料的审核工作,由于审核者都是有一定经验的督导员甚至是研究者本人,因此也可以避免由于审核者不同导致的误差。经验是其中一个方面,另一个重要的方面是审核者有共同遵守的原则:

(1)真实性原则。对问卷中的答案要根据实践经验和常识进行辨别,看其是否真实可靠地反映了被访者的客观情况。尤其是对于具有逻辑关系的指标,要检查其是否合乎逻辑,如果发现有不合理或相互矛盾的地方,甚至仅仅对其有疑问,就都要采取一定的措施,排除其中的虚假成分,保证资料的真实性。

(2)准确性原则。准确性是指在保证真实性的基础上,记录和表达的准确程度。这包括对于同一个调查指标,不同访问员理解得是否一致、记录的方式能不能保证其具有可比性。例如,对于每天收看电视的时间,问卷中明确规定采用“分钟”为记录单位,而某个访问员却采用记录为10“小时”,用什么单位记录看上去是等价的,但在录入时,录入员一般就只看问卷中的数字而不再管其具体意义了,很可能就会录入为10“分钟”,这样就导致了非常大的误差,一个常看电视的被访者被误作为不太看电视的人对待,以此为分类指标进行的其他统计分析,全部都不准确了。对于这种情况,审核员可以直接在问卷上用红笔把10“小时”变成600“分钟”即可解决。而对于另一种不准确的情况,例如仍是对每天收看电视时间这个指标,某个访问员记录的是“很少”,这时审核员也没有办法改正,只能根据情况采用其他的方法去处理,如再向被访者询问或作为无回答处理。

(3)完整性原则。要检查问卷是不是按照规定的方式填写完整,有无该填写而空着未填写的地方,要求跳答的题跳答位置是否正确,等等。

(4)标准性原则。在问卷审核时对于发现的问题,必须按照规定的、一致的、可行的方法进行处理,即对同样的情况采用同样的标准。

2.问卷审核的主要内容

资料审核应该对逐份问卷逐题认真审查,其中应对以下重点内容重点对待:

被访的背景材料,即检查被访者是否属于规定的抽样范围内;问卷是否完整清楚;问卷是否真实可信;问卷中的主要关键问题是否回答;问卷中是否存在明显的错误或疏漏;有无不确切不充分的回答;有无答非所问的回答。

在审核时,如果发现问卷中存在问题,应统一使用红笔标记。一般为了保证资料的真实性,审核人员尽量避免直接修改问卷中的内容。

3.对审核后问卷的处理

对于一份审核完的问卷,如果它基本上不存在什么问题,就应该接受并进行编码工作。不过,大部分的问卷都可能或多或少存在一些问题,这就要根据具体情况去判断如何处理这份问卷。

对于审核存在问题的问卷,一般有如下几种处理方法:

(1)作废处理。一般来说,对于出现问题较多的问卷,应该作废处理。不过,这样做是冒着很大风险的,如果问卷作废的数量太多,就不能保证研究所需的样本量和估算的精度要求。因此,需要在以下的前提下,才能酌情作废掉一部分问卷:①不满意问卷比例很小(小于10%)。②样本量很大。③不满意的问卷和满意的问卷相比,被访者之间没有明显的差别。④每份不满意的问卷中,不满意答案的比例很大。⑤关键变量的答案是缺失的。不过,不满意的问卷与满意的问卷之间一般都会有差异,这个因素会使调查结果产生偏差。所以,在决定是否要扔掉不满意的问卷时,一定要从多方面慎重考虑。

(2)退回实施现场补救。由于作废的方式不能大面积采用,对于一些问卷,如果能够采取措施进行挽救,就尽可能去挽救。其中一种主要的挽救措施就是将这份问卷退回实施现场,让访问员再次去接触被访者。再次接触被访者这种方法有很多的条件限制,往往在入户面访访问中才会较多使用。

(3)进行无回答处理。如果将问卷退回实施现场的做法无法实现,校订人员可能就要把不满意的答案按缺失数据来处理。不过,这样做需要在满足以下前提的条件下进行:①有不满意答案的问卷份数很少。②每份有不满意答案的问卷中,不满意答案比例很小。③有不满意答案的变量不是关键的变量。④有无回答的被访者和其他被访者无明显的差异。

对不满意的答案进行缺失处理常可能带来偏差。例如,拒绝回答收入的人,往往是高收入的人,如果简单按缺失数据处理,就会带来对总体平均收入的低估。

(4)校订和修正。有的问卷中只存在一点小问题,例如某处的记录不够清楚、单选题选择了多个答案、该跳过不问的题也询问了,等等。审核人员就可以向访问员或被访者核实情况,对错误之处进行校订和修改,并作为有效信息使用。不过,校订和修改的地方必须用明显的标志注明,以便作进一步的核实。

(二)问卷的编码

审核工作完成之后,就可以进入问卷的编码阶段。编码是将问卷中原始答案转换为容易录入和分析的格式(通常是数字代码)的过程。编码是数据录入前的必要工作,具体又可分为事前编码(Pre-coding)和事后编码(Post-coding)。

1.事前编码

事前编码一般在设计问卷的同时就已经进行了,因为大部分的问卷都是有结构的、问题都是封闭的,以致每个问题都有固定的顺序,大多数的答案都会落入事先确定的类别中,而每个类别事先也都分配了数字的编号。所以,在访问中确定了一个问题的答案就等于确定了一个编码。

事前编码的问卷通常是将每个答案对应的数字直接印在问卷上,以便于访问员选择和记录。

(1)单选问题的编码。单选问题的事前编码工作相对来说是最简单、最容易的。例如,针对报考某资格考试者的一组背景材料问题:

Q1性别:1.男  2.女

Q2出生年份:_____年

Q3教育程度:_____

1.高中、中专及以下 2.大专img112.本科 4.硕士及以上

Q4工作单位类别:

1.电视台 2.电影制片厂 3.广播电台 4.音像出版社

5.影视节目制作经营公司 6.其他(注明)__________

Q5专业技术职务级别:

1.初级 2.中级 3.高级

Q6从事相关专业工作年限:__________年

对于类似这样的问题,在资料分析时可以分别用Q1、Q2、Q3、Q4、Q5、Q6来表示性别、出生年份、教育程度、工作单位类别、专业技术职务级别、从事相关工作年限这些变量,当然变量的名称也可以随意规定,例如用Gender、Born、Educ、Ocup_Cat、Prof_Lev、Job_Year分别表示上述变量。这些变量的取值范围依据问卷中的类别而定。例如,性别的取值范围是1和2,即某个被访者要么取1、要么取2,不会再出现其他的答案。

一旦某个调查对象在这些变量的备选类别中做出了选择,该调查对象对应于这些变量的取值就是确定的。例如,某调查对象在接受调查时做出了如下的回答:

Q1性别:img113.男  2.女

Q2出生年份:img114

Q3教育程度:

1.高中、中专及以下 2.大专 img115.本科 4.硕士及以上

Q4工作单位类别:

1.电视台 2.电影制片厂 3.广播电台 4.音像出版社

img116.影视节目制作经营公司 6.其他(注明)__________

Q5专业技术职务级别:

1.初级 img117.中级 3.高级

Q6从事相关专业工作年限:img118

则对于该调查对象,对应上述6个变量的编码就分别是1、1963、3、5、2、10。这个例子说明了大多数的编码工作都是几乎在问卷设计的同时进行的。

(2)多选问题的事前编码。上述例子是针对单选问题的情况进行说明的,一个单选问题只需规定一个变量就可以了。而问卷中有时候必须采用多选问题,多选问题是可选多个答案的情况,例如限选三项或不加限制等。如下面的例子:

·请问您收看电视的主要目的是什么?(限选三项,按重要性排序)

1.了解时事

2.了解政府的政策       第一:(  )

3.了解国家发展动态

4.了解商品信息        第二:(  )

5.学习各种知识

6.增长见闻          第三:(  )

7.娱乐消遣

8.借鉴别人成功经验

9.追求艺术享受

10.消磨时间

11.其他(注明)

这种询问的方法相当于是三个单选问题,需要用3个变量分别表示第一目的、第二目的和第三目的,3个变量的取值范围都是相同的。

如果该问题中没有“按重要性排序”的指导,则该问题的记录方式就可以简单地在选项上画圈表示。编码时也可以按3个变量去理解,只不过每个变量的取值没有重要程度的区分,这样的编码方法对于录入工作是有利的,录入时可以减少敲击键盘的次数。但是对于统计分析工作是不利的,在统计分析前,需要先进行处理。

如果这个问题的形式再变为:

·请问您收看电视的主要目的是什么?(可多选)

1.了解时事

2.了解政府的政策

3.了解国家发展动态

4.了解商品信息

5.学习各种知识

6.增长见闻

7.娱乐消遣

8.借鉴别人成功经验

9.追求艺术享受

10.消磨时间

11.其他(注明)__________

因为只注明是多选,并没有限定选项的数量,被访者选择多少项的可能性都有,既可以只选一项,也可以选择全部。为了保证所有的选择都被包含,就必须用和选项相同数量的变量来与之相对应。本题就应该用11个变量来定义:

N1={1,0|1表示选择了“了解时事”,0表示没有选择“了解时事”}

N2={2,0|2表示选择了“了解政府的政策”,0表示没有选择“了解政府的政策”}

……

N10={10,0|10表示选择了“消磨时间”,0表示没有选择“消磨时间”}

……

对N11的取值编码要在事后进行,请参考稍后的“事后编码”。

只有这样定义变量才能保证所有的选项都能被包含在内。在规定每个变量的取值时,当然也可以规定全部变量在选择了对应选项时都取1,没有选择时取0。例如:

N10={1,0|1表示选择了“消磨时间”,0表示没有选择“消磨时间”}

但是考虑到全部取1或0时,在数据录入中容易产生错位而造成误差,所以一般都用前一种办法编码,等到数据录入完毕再将这些变量的值全部转换为1和0进行分析。

在事前编码的同时,其实已经同时规定了变量的类型、变量的长度和取值范围。在一般的调查中,常用的变量类型有数值型和字符型两种。字符型变量可以输入任何字符,例如性别可以输入M代表男性,F代表女性,也可以输入字符1为男性,2为女性。由于在电脑键盘上有专门的数字键盘区,用数字录入显然比用其他字符快速。而且如果规定字符型变量,则除了做频数分析之外,其他任何数值型的计算都是不允许的。实际上在运用统计方法时,有时候一些定类变量经过变换后也可以进行统计分析,比如性别是定类变量,用1和0表示后,就可以计算它与其他变量的相关。因此,为了数据输入和分析的方便,有经验的研究者常常用数值型来定义变量的类型。

规定变量的长度是指在输入数据时一个变量的取值最多占几位,如果一个单选变量有9个以内的选项,则长度只需规定一位就够了;如果有10个以上的选项(但不超过99),则应该规定两位。对于多选问题,其取值的位数和选项编号的位数是对应的,比如上例中N1只用一位就够了,而N10就要采用两位。

规定了变量的长度,还要规定变量的取值范围,比如一个单选问题,有4个选项,规定变量的长度为1,则这个位置其实是可以输入0~9中的任何一个数字的,为了减少录入错误(例如由于手误将取值4录入为7)的概率,最好是限定一个恰当的取值范围。例如,除了答案中可能出现的1~4中的数字和代表缺失值的数字(例如是0)之外,别的数字录入系统不接受。这样,当出现手误如应该输入4而敲击了7时,电脑便会发出警告,提醒录入者有错误发生。再比如上述变量N9的取值范围限定为9和0两个数,其他的数字一概不接受。

(3)问卷的编号。由于对问卷进行审核、编码、数据录入、查错等工作时,都要根据有效的标记来识别不同的问卷,因此必须给所有问卷一个惟一的编号。有经验的研究者会在问卷分发给访问员去实施之前就进行统一编号,这也是事前编码的一部分。这样在调查实施中有遗失的问卷,也可以马上发现;同时,按编号顺序来记录所有接收的问卷是十分有用的。问卷编号不仅要清楚地记录在原始问卷上,也要和问卷的其他内容同时录入到数据库中。在进行查错时,研究者可以随时找到原始的资料并和录入后的资料进行对比。

2.事后编码

在数据收集结束以后进行的编码叫事后编码,目的是给某个没有事先编码的答案分配一个代码。通常需要事后编码的有封闭式问答题的“其他”项以及开放式问题。事后编码需要由专门的编码员进行。

封闭式问答题可能有若干个供选择的答案,再加上需要被访者具体说明的“其他”类别。例如,前面例子中Q4和N11中的“其他”项。由于这样的答案没有事先规定的代码,因此在数据录入前要做事后编码的工作。不过,单选和多选问题的“其他”项编码也稍有不同。

(1)单选问题“其他”项的编码。以Q4为例来看一下如何对单选问题的“其他”项进行事后编码。

Q4工作单位类别:

1.电视台 2.电影制片厂 3.广播电台 4.音像出版社

5.影视节目制作经营公司 6.其他(注明)_______

假定有人在回答该问题时选择了“6.其他”,并在后面的横线上填写了内容。编码员应该首先对这些内容进行归纳,如果发现选择“6.其他”选项的人的比例很小,而且填写的内容也比较分散,则可不需要编码,直接把这些人归为“其他”类就行了。但如果由于设计问卷时前期探索不够充分,导致有相当比例的人选择了“6.其他”项,而且注明的信息有些集中,例如注明“广告公司”的人超过了规定比例(比如一般规定大于样本的1%),就必须把“广告公司”作为单独的一个类别列出。例如,在本题中新增一个类别“7”专门指“广告公司”这一类别。如果有其他的类别也达到了规定的比例,则可接着往后面排列8、9、……

把“6.其他”选项中达到了规定比例的类别重新划分类别编码后,其余的一些数量很少的信息可仍然用6表示为“其他”。这个“其他”是分类后人数不超过规定比例的那些类别的统称,因为填写这些类别的人数太少,有的类别甚至只有一人,这时就没有必要将所有的类别一一编码。

(2)多选问题“其他”项的编码。对于多选问题的N11,情况有一些不同。由于在定义变量时,N11是一个单独的变量,因此编码时就可以从1开始编起。例如,对“其他”选项进行归纳,发现有一定比例的被访者注明是“和外界进行沟通”、“了解天气情况”,则编码就可以按以下的方式进行:

1.和外界进行沟通

2.了解天气情况

3.其他

9.无回答

由于N11是单独的一个变量,因此它的值取1不会和问题中的“1.了解时事”相冲突。而且根据事后编码的类别数,决定了N11只需要一位的长度即可。

对于开放式的问答题,如果不准备进行任何的定量分析,就没有必要进行编码,只需在写报告时将这些问题的答案做定性的归纳研究即可。不过如果希望知道是什么样的人做了回答而另一些没有,可以简单地定义一个0~1变量,用1表示对该问题做了回答,用0表示未做回答。如果要对开放问题进行定量分析,则需要将各种可能的回答归纳并一一编号。

(3)开放题的编码。开放题的事后编码工作量很大。这是因为编码员一般无法知道将会出现多少新的编码和答案;而且还有一些答案是类似的,必须决定是将它们合并为一类,还是要分成几类;同时,需要确定是规定一个变量还是多个变量,以及规定变量的取值。

比如某新闻类期刊进行读者调查,最后一个开放题是:

Qm:请问您对本杂志的工作还有什么宝贵的意见?

将答案归纳整理为33类:

1.人情稿件、后门稿件现象比较严重,应该杜绝

2.媒介内容大多适宜于领导干部和决策领导;领导讲话太多

3.应该多报道基层的新闻和一线记者的报道

4.理论性不足,空话太多;应该多些理论性学术性文章

5.可读性差,应该增加新鲜性、针对性和趣味性

6.多刊登一些分析性、前瞻性的文章

7.多刊登一些具有政策权威性和理论权威性的文章

8.每期突出一个专题,针对热点、焦点问题进行讨论,组织经验交流

……

定义变量时可以按多选变量定义,但是考虑到录入方便,可设变量的个数与分类编码后的一份问卷同时存在的最大类别数相同即可。例如,如果归纳编码后发现被访者意见最多的也只用5个编码概括就足够了,那么只需要定义5个变量就够了,每个变量都可以看做单选变量,其取值范围就是所有的类别数。

对开放题的编码需要大量的细致的整理和归类工作,而且不管怎样努力也不可能生动准确地反映出被调查者的全部具体意见,因此定量分析辅助以定性分析是十分必要的。

(4)辅助信息的编码。除了对问卷中的每个问答题规定一个或多个变量外,编码时还要对问卷的辅助信息进行相应的编码,例如地区编号、街道编号、单位编号、访问员编号等,并且根据相应的内容规定变量的值。有了这些辅助资料,不但可以比较不同访问员的访问质量,对以后的统计分析是有很大帮助的,例如可以比较地区差异、不同访问员完成情况的差异和其他方面的差异。

(5)事后编码的过程。每个需要事后编码的项目都必须有一份编码表,通常最好还做一份编码本,内含一页或几张单页,将项目号码或问答题的位置清楚地标在每页的顶端。由于研究人员事先不知道会有多少新的编码或答案出现,所以要预备足够的空间来添加新码,以便所有的问卷都能编完。

如果只有一个编码员工作,那么事后编码是相对简单而且容易的。但是一个编码员往往不能达到速度要求,需要有多名编码员同时进行编码,那么所有的编码员应该在不同的时间工作,使用同一份编码本;或同时在同一地点工作,使用同一编码本。因为如果两个或多个编码员同时在不同地点工作,他们就无法知道其他编码员在编码本中设立了什么新码。因此,很有可能同一个代码会对应两个不同的答案,而编码的目的是让每一个可接受的答案对应一个惟一的数字代码。经验表明,允许编码员在分隔的地点用不同的编码本独立地工作是极为有害的,几乎肯定会出现严重的错误数据问题。

(6)事后编码应注意的问题。

首先,研究人员应当规定具体的准则,指导编码员如何识别答案、如何将其归入一定的类别内、如何为其分配代码,等等。在缺乏非常具体的编码指南时,不是特别有经验的编码员或对调查过程不熟悉的编码员可能有两种倾向:给每一个和已编码的答案不相似的新答案以一个新码,结果是类别和代码比预料的多得多,也许一个代码只对应一两个个案;或是为了简化工作,将许多甚至不相似的答案都归入同一个大类,结果是丢弃了数据中有意义的差异,而这些差异可能是对研究人员有用的。因此,一定要给编码员具体的指南,并要进行监督检查,特别是在开始时要确保编码员能正确地工作。

不过,有时编码员自己很难决定是再设立一个新代码还是将其合并到已有的一类中去。如果很难决定,大多数有经验的研究人员会宁愿多设立一个新码,因为以后分析时将数据再合并成大些的类别是很容易通过计算机实现的。可是如果反过来,一旦已合并成了大类,失去的差异是无法找回来的,除非去参考原始文件。

其次,确保编码本中字迹整洁和清楚是十分重要的。缺乏经验的研究人员不到分析和报告阶段实际使用信息时,都可能会认为这个提醒太琐碎了。例如,一页纸写满时,编码员一般都会在纸边上记录,而不会去添加一张新纸。这样一来,其他编码员可能就注意不到最后的代码,而将同样的代码分给了其他不同的答案。所以,编码本的整洁不只是为了美观。如果编码本的编号顺序乱了或看不清楚了,花费时间和精力重新抄写一遍,以得到更有条理的编码本,会是十分值得的。

事前编码和事后编码所用的编码本最后应该合并为一个编码本。一般来说,编码本不但是编码人员的工作指南,也提供了数据集中变量的必要信息。

(7)事后编码的误差控制。对封闭式问题(有结构的问题),经常在访问发生之前就确定编码,编码误差不容易发生。对开放问题进行编码常常是主观的,它包含了解释和判断,因此会产生编码误差。例如,两个不同的编码者可能对相同或相似的答案给出不同的编码。因此,应当采取适当的措施防止和控制编码误差。

通常,研究者应当对编码员进行严格的培训并且向编码员提供编码的操作手册,指导如何实施编码、如何在编码本中根据新的情况更新内容。对于完成的编码要及时采用一些质量控制方法来验证编码,比如可以让一个专家和一个编码者在相同的条件下重复编码,然后比较编码结果和分析差别,找出问题所在。不过,最好的控制方法就是在设计问卷时就考虑编码的需要,尽可能使用标准化的编码和分类系统。

(三)数据的录入与查错

对资料编码的工作完成后,接下来就是数据录入。数据录入是指将问卷或编码表中的每一个项目对应的代码都通过一定的方式输入到计算机中。在我国,目前键盘录入的办法是最常用的。由于采用人工键盘录入原始数据,无论组织得如何严密,录入人员多么认真负责,错误也还是有可能发生的。为此,需要对录入的数据进行认真地查错。

1.数据录入

在问卷编码中采用数字代码,大大方便了录入工作的进行,因为录入人员只需要使用键盘上的数字键区就可以了。如果是采用CATI电话访问、网上调查等方式进行调查,事后录入工作就不再需要。

数据录入可以采用专门的软件,通过定义变量的列位置、长度和变量取值范围进行,数据的录入位置可以通过逻辑判断实现自动跳转;这样做的好处是可以减少敲击键盘的次数,大大减少录入的工作量。同时,在专门的录入软件中可以设置数据的接受范围,因而可以降低产生录入错误的概率。

数据录入是按问卷进行的,一份问卷就是一条记录,在录入界面上就是一行。可以有很多录入人员同时进行录入,每人完成一部分,最后可以把这些数据合并在一起,问卷的编号是识别这些数据的标识。录入完成后,可以将这种数据读出并转换成统计软件可以处理的表格形式。目前,各公司采用的录入软件很多,有现成的软件如SPSS软件中的DATA ENTRY等,也有调查公司自己开发的录入软件。

采用键盘录入会产生错误,这可能是由于数据复杂性产生的,也可能是由于要录入的信息缺乏明确性而产生的;问卷或编码的格式也可能引起数据录入误差。数据录入误差经常很难发现,因此要尽量避免。为了将错误限制到最低水平,需要采取以下必要的质量控制手段:

(1)要对录入人员进行培训,明确任务的具体要求及注意事项。如果录入的格式没有事先印刷在问卷上,就必须向录入人员提供一份“录入格式”,用于明确每个记录包含的变量及其相对位置。一般来说,录入人员虽然可以做得又快又准确,但他们对手中的数据或研究的最终目的几乎是一无所知的。所以在录入工作刚刚开始时,研究人员最好能在场,使录入人员可以对自己没有把握的问题提问。

(2)采用质量控制程序。录入时常用的质量控制方法有以下:①全面核查。全面的核查要求每一份问卷都必须录入两次,采用一台核查机和两个录入人员。第二个录入人员将编码的问卷重新再录入一遍。两个人录入的数据要进行逐项的比较,如稍有不同,录入的错误就会被检测出来。但是对整个数据集进行全面核查,时间和费用都要加倍。因此,大多数研究人员都不采取这种全面核查的方式,除非是需要特别高精确度的情况。②部分复查。如果录入人员是熟练的而且认真负责的,其准确度一般都相当高,根据时间和费用的限制,通常只抽查一部分进行复查就够了,这个比例一般在25%~50%之间。如果只找出很少的错误,那么不必变更数据文件;如果查出大量的错误,就有必要进行全面的核查,或使用更准确的录入人员重新录入一份文件。

2.数据查错

正如上面提到的,无论录入人员操作多么规范和认真,都不能完全保证没有手误的发生。为此,对录入后的数据要进行认真地查错。查错的方法主要如下:

(1)一致性查错。一致性查错主要是考察变量的取值范围是否与所规定的范围相一致,例如性别的取值范围是1、2,而结果中却出现了3,这说明必定有错。一般可以利用现成的统计软件将所有变量做频数分析,对超出变量取值范围的数据,可以查出对应的问卷号,然后核对原始问卷,改正错误。不过如果录入格式控制得好,非法数字不能录入进去,这样的错误是不会出现的,如性别的录入,潜在的错误只可能是把1录成2或把2录成1,错误的概率就大大降低了。

(2)逻辑查错。逻辑查错是检查数据有无逻辑错误,例如年龄在20岁的人职业竟然是退休、从不收看某个频道电视节目的人却对该频道的某个节目评价很高,都是不符合逻辑的,可能是由于录入错误造成的。检查的办法是对相关的变量两两进行交互,找出出现矛盾的个案,进行错误修改。

数据查错并改正的过程可以叫做数据净化。数据净化还可以对以往的工作环节进行错误检查。因为录入后采用的是计算机查错,因此检查会是更彻底更广泛的。通过一致性检查和逻辑检查,可以发现数据核查阶段没有发现的错误,即可以查到不是由于编码和录入而是由于回答本身的不合理而出现的错误。当这些错误能够进行更正时,可以根据情况进行纠正,如果错误很严重的话,甚至可能采用剔除样本的办法来处理。

数据净化的过程有异乎想像的重要性。如果数据不“干净”,会产生两方面的严重问题。首先,很有可能无法执行下一步的数据分析,因而报告不能按时提交、项目不能按时结束。其次,更糟的是数据分析和报告已经完成,但是研究人员并没有意识到里面的许多错误,或者在完成报告后才发现了错误,只能前功尽弃。因此,在数据录入完毕之后,进行数据查错和改正是必不可少的重要工作。

(四)数据分析前的统计预处理

分析前的统计预处理并不是对所有的调查都必要,但采用适当预处理可以提高数据分析的质量。统计预处理的主要类型有缺失数据的处理、加权、变量重新规定或转换、量表的转换等。

1.缺失数据的处理

在许多情况下,小量的缺失回答是可以容忍的。但是如果缺失值的比例超过了10%,就可能出现严重的问题。处理缺失值主要有四种方法:

(1)可以用一个样本统计量去代替缺失值,最典型的做法是使用变量的平均值。这样,由于该变量的平均值会保持不变,那么其他的统计量例如标准差和相关系数等也不会受很大的影响。例如,一个被调查者没有回答其收入,那么就用整个样本的平均收入或用该被访者所在的子样本(比如是属于社会地位比较高的那个阶层)的平均收入去代替。不过从逻辑上说,这样做是有问题的,因为被访者如果回答了该问题的话,其答案可能是高于或低于该平均值的。

(2)利用由某些统计模型计算得到的比较合理的值来代替,例如利用回归模型、判别分析模型等。比如说,“每天看电视的时间”可能与“家庭人口数”和“职业”有关系,利用回答了这三个问答题的被调查者的数据,可能构造出一个回归模型。对于某个没有回答“每天看电视时间”的被访者,只要其“家庭人口数”和“职业”是知道的,就可以通过这个回归模型估计出其“每天看电视的时间”。又例如在研究传播效果时,对选举进行预测,如果问到选民在下次选举中会投谁的票时,有许多被访者常常会给出“还没有决定”的回答。如果只是简单地删除掉这一部分回答,那么肯定会引起严重的预测偏差。处理这一问题的统计方法之一是寻找一个判别函数,使其能够区分那些已经决定投票选A(假定只有两个候选人A和B)的群体和已经决定选B的群体。这个函数可能由一些独立变量来解释,如被访者的社会地位、职业、党派、教育程度、生活形态、接触媒介的情况,等等。假定某位回答“还没有决定”的被访者给出了上述变量的答案,那么就可能通过计算将他(她)划入“已经决定选A”或“已经决定选B”的群体中。这样,选举预测的成功率就会大大地提高。

(3)将有缺失值的样本整个删除,这样做的结果可能会导致样本量急剧变小,因为很多被访者都可能多多少少对有一些项目没有回答。删除大量数据并不是所希望的,因为数据的收集需要大量经费和时间。而且,有缺失回答的被访者与那些全部回答的被访者之间可能会有显著差异。如果真是如此,这种整个删除的方法会导致有严重偏差的结果。

(4)将有缺失值的样本保留,仅在相应的分析中对缺失的变量作必要的排除,在对其他变量的分析中仍包含该样本。这样会使分析中不同的计算根据不同的样本量进行,这也有可能导致不适宜的结果。但是如果样本量很大、缺失值的个数很少、变量之间又不是高度相关的,这种方法是可行的。在实践中这种方法常被研究人员所采用。

不同的缺失值处理方法可能产生不同的结果,特别是当无回答不是随机的而是与其他变量之间存在高度相关的情况。因此,应当在调查实施阶段就使缺失数据保持在最低水平。在选择一种处理缺失数据的方法之前,研究人员应该仔细地考虑各种方法所可能产生的后果。如果对缺失数据进行处理,应该有详细的记录和描述。

2.加权处理

在统计分析之前,首先要考察样本对目标总体在一些主要特征上的分布是否具有一致性,样本是否具有代表性。如果样本分布与总体分布有显著的差异,用这样的样本数据去推断总体肯定就是不合理的。为此要进行加权处理,使样本在一些主要指标上的分布与总体基本上保持一致。在媒介调查中,加权处理是比较常用的。

在加权处理时,要给数据库中的每一个样本一个权重,用于反映其相对于别的样本的重要性。加权处理的效果是在具有某些特征的样本中增加(权重>1)或减少(权重<1)个案的数量。

加权处理最广泛地用在具体的特征指标方面,使样本对目标总体更具代表性。例如,某省电台在全省范围内进行了一次听众抽样调查,农村样本占30%,城市样本占70%,而总人口分布中,农村人口占了60%,城市人口占了40%,由于样本对总体没有代表性,因此要对样本进行加权处理。加权系数或权重应等于对应的总体比例除以样本比例,因此农村样本的权重为2,城市样本的权重为0.5715。

加权处理的另一个作用是调整样本,使具有某些特征的被访者被赋予更大的重要性。如果研究的目的是要某个电视节目进行改版,那么专家的意见就可能比一般观众的意见更加重要,因此赋予他们较大的权重;经常收看该节目的观众和很少收看该节目的观众意见重要性也可能是不同的。通过加权处理,例如可以给专家赋予权重3,经常收看该节目的观众赋予权重2,而对很少收看该节目的观众赋予权重1。这种做法很像一些游戏竞技类节目中把一个专家的支持作为200分,而一个普通现场观众的支持只作为1分。

不过加权处理需要有足够的理由才能进行,并且要慎重地对待,赋予权重的大小要有一定的依据。如果采用了加权预处理,在研究报告中应该详细说明加权处理的方法和结果。

3.原始数据的转换

在进行数据的统计分析之前,常常需要将原始数据或变量重新分类、重新编码或重新定义变量、修改变量,还可能要对变量进行必要的转换。

(1)变量的重新分类。在收集数据时,可能采用某种较为方便的格式或类别进行;在录入时,也会采用最省时的方法去构建数据库。但是在分析和解释数据时,原有的这些类别可能需要调整,这时就有必要将原始数据重新分类或重新编码,使其类别更有意义。例如,有关被访者的基本特征如年龄、教育程度和收入的问答题,常常是按具体的数值或按非常细致的类别来提问。比如“请问您的年龄是多少?”“请问您是哪年出生的?”“请问您的税后个人月收入是多少?”但是在有些分析中,如频数分析,将原始数据合并成新的类别可能会更有意义。比如,按年龄将被访者分成“青年”、“中年”、“老年”;按月收入将被访者分成“低收入”、“中低收入”、“中等收入”、“中高收入”、“高收入”;或将5类月收入再进一步合并成三类“低”、“中”、“高”,等等。

将原始数据重新分类或重新编码合并时,要注意重新构成类别时必须满足:①所有的情况都已包括在新的类别之中。②各个类别之间没有交叉或重叠。③类别间的差异大于类别内的差异。

(2)定义新的变量。定义新的变量或修改现有的变量也是经常需要的。例如,如果关于被访者年龄询问的是出生年份,而在做回归或者相关分析时参与计算的应该是实际年龄,因此就要重新定义一个年龄的变量,可以根据出生年份来计算这个变量的值。

一种在分类中常用的重要变量类型是“哑变量”或“二分变量”。这种变量只有两个取值,通常是0和1。例如,对“性别”这个变量,通常的情况是用1代表男,2代表女,但是性别这个变量与其他变量进行相关或回归分析时,就应该转换成哑变量,用1代表男,0代表女;或者1代表女,0代表男。

(3)多选问题的变量转换。对多选问题,前面已经提到,要根据情况而定。如果是不限定选项的多选问题,在数据录入时有多少选项就规定几个变量,而且变量的取值是0或者是该选项对应的顺序号。在进行分析中是不能按照这样的值进行处理的,也需要进行转换,将除了0以外的取值都变成1,这些变量就都成了0~1变量。

多选变量的另一种情况是限定选项数量,如指出“限选三项”,则在录入时只按3个变量进行(例如V1、V2、V3)。在分析前,仍要根据这些变量生成新的和备选答案数量相同的变量,让每一个变量和惟一一个选项对应。例如,新增加的第一变量NV1是对应第一个选项的,对于每一个样本个案,要求统计分析软件自行在变量V1、V2、V3之中查询有无出现选项1,如果有,则NV1的值取为1,否则NV1的值取为0。

(4)量表的转换。量表的转换问题是比较常见的。例如,对某节目进行满意度评价的问题,一般在问卷中是按如下的方式设计量表的:

Qn:请问您对××节目的满意程度如何?

1.非常满意

2.比较满意

3.无所谓

4.比较不满意

5.非常不满意

这样的量表在统计分析中常常当做定距变量来处理,可以计算其平均分,可以参加其他的高级统计分析。如在本例中,假如答案为1、2、3、4、5的样本分别有110个、140个、80个、50个、30个,则可以计算这些样本的平均得分是:

(1×110+2×140+3×80+4×50+5×30)÷(110+140+80+50+30)=2.4

已知这种5级量表的中间点是3分,而样本得到的平均分是2.4分,则说明样本平均是倾向于满意一端的,而且平均分越低,满意程度越高;假如样本平均得分高于3分,则说明平均样本是倾向于不满意一端的,而且得分越高,满意程度越低。

如果对该变量和另一个变量(假如是收视该节目的频度)进行相关分析,计算得出相关系数是-0.85,在0.01的检验水平下是显著的,则说明这两个变量显著相关。由于相关系数是负,则可解释为,满意度得分越低,收视频度越高。虽然这种解释是可以被理解的,但是不太符合人们通常的习惯。

通常来说,满意度越高,就应该赋予一个较高的分值。这样在计算平均分时,平均分越高,说明满意度越高;计算相关分析时,相关系数也将变为正号,便可解释为满意度得分越高,收视频度越高。不仅对于平均值和相关关系,对很多其他的高级统计方法,将满意度得分进行高低转化都会带来很多的方便。

所以,在分析数据之前,统计预处理包括对量表的转换。转换的方法很简单,只需要以中间的数字为对称轴,将得分值两两对换就可以了。比如5级量表可以以3为对称轴,将1和5对换(把1变成5的同时将5变成1)、2和4对换;而4级量表需要1和4对换,2和3对换。

经过诸多环节的工作,现在电脑中存在的已经是基本没有错误的干净数据。调查研究的下一步工作就是如何采用最恰当的统计分析方法进行正式的数据处理和解释结果。这将在第三章专门讲述。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈