原始资料的数据整理

时间：2023-06-29 百科知识版权反馈

【摘要】：11.1　原始资料的数据整理当前，计算机在社会科学研究中的应用不断扩大，它也是各种量化分析技术的主要处理媒介。目前，大部分的问卷调查都采用封闭式问题。整个编码手册格式要统一规范，指示要明确、利于理解。在封闭式问题中，每个资料必须有且只有一个对应类别。一般而言，主要有两种方式进行数据清理。

11.1　原始资料的数据整理

当前，计算机在社会科学研究中的应用不断扩大，它也是各种量化分析技术的主要处理媒介。但是，我们收集上来的问卷资料主要表现形式为文字语言，计算机无法识别，也难以建立各种数学模型，因此，必须把调查问卷的文字语言转变为计算机可以识别的数学符号，将原始资料转换为计算机能够判读与处理的信息，使之成为下一步量化分析的基础。

11.1.1　编码

1.什么是编码

把问卷资料转换为计算机可识别的数学符号的主要手段就是编码，所谓编码就是赋予每一个问题及其答案一个数字作为其在问卷中的代码。⁽²⁾目前，大部分的问卷调查都采用封闭式问题。封闭式问题在提出问题的同时，向被访者提供若干可选择的答案，被访者只需在调查员提供的诸多答案中根据具体要求选择一个或多个即可。比如：

A1你的性别：(1)男；(2)女

A2你的文化程度：(1)小学及以下；(2)初中；(3)高中或大专；(4)大专及以上

在该例中，每个问题都提供若干备选答案，并且这些答案都有唯一一个数学符号与之对应。如A1问题中“男性”为1、“女性”为2；A1问题中“小学及以下”为1、“初中”为2、“高中或大专”为3、“大专及以上”为4。也就是说，通过编码，我们把文字语言转换为数字语言了。

2.如何编码

我们强调编码是把问卷语言转变为数字符号，但这种转换不是任意的。通常而言，我们需要准备一个编码簿。我们知道，在一份问卷中，即使是围绕一个主题进行的调查，涉及的问题也会很多，而如果每个问题下面又有很多变量的话，就会出现同一数字代表不同含义的情况，如在上面的例子中，A1和A2中的数学代码都是“1”，但其所指的对象完全不同，前者指的是性别为“男性”，而后者指的是文化程度为“小学及以下”。可以看出，即使是相同的数字代码也都代表了每个变量的不同属性。

编码簿就是把调查问卷中所有相关变量的数字代码进行汇总，人们可以根据需要从中查出对应的代码所代表的原始属性。一般而言，编码簿要将需要编码的项目和问题一一列出，逐一规定它们的代码、宽度、栏码、简要名称以及答案赋值等情况。整个编码手册格式要统一规范，指示要明确、利于理解。

在量化分析流程中，编码簿具有两个基本功能：(1)它是编码过程中的基本指南；(2)在分析时，它可以告知我们每个变量在资料文件中的位置以及每个代码所代表的意思。⁽³⁾在对资料进行量化分析时，只需要检索编码簿就可以知道想要的变量及其代表的信息。

3.需要注意的问题

在编码中，有若干问题值得我们注意：

第一，每本编码簿必须对变量进行完整的定义。对于问卷中的问题，用词必须准确。

第二，编码簿必须指出每个变量的属性。

第三，给每个属性贴上数字标签。

第四，编码中的每一个类别之间必须是穷尽的。在封闭式问题中，每个资料必须有且只有一个对应类别。

11.1.2　数据清理

通过编码，我们把问卷语言转换成计算机可以识别的数字符号，但是要让计算机运行这些数字符号仍然差一个步骤，即把纸面信息录入计算机。尽管我们在数据输入时小心翼翼，但是经验表明，在此过程中仍然会出现各种难以避免的录入错误，主要有编码错误、录入错误等，如不小心把“7”录入成了“1”，等等。因此，要想提高数据分析质量，必须对录入计算的数据进行“净化”，发现并纠正录入过程、编码过程中的人为错误。一般而言，主要有两种方式进行数据清理。

1.有效范围清理

在前面的编码簿中我们已经说过，对于问卷中的任何一个变量，它下属的各个答案项目都有且只有一个对应的数字符号，并且这些答案对应的数值都处于一定的区间范围之内。因此，任何超出这一范围之内的数字都是错误的，如我们在前例中提到的在A1问题中，只有两个码值，“1”和“2”，在A2问题中，只有四个码值“1”、“2”、“3”和“4”。如果在计算机表格中，A1问题中出现了“3”或“5”，在A2问题中出现了“7”和“8”等非编码范围内的码值，那么就可以断定，对应的录入过程或者编码过程出现了问题，需要重新回到原始问卷中进行复核。

清理码值有效范围借助于频数分析和排序技术即可完成(这一点，通过最常用的Excel软件即可实现)。通过变量的频数分析图表，我们可以看出，在某一个具体问题中是否存在超出有效范围的异常值。如果存在异常值，那么，我们再通过对变量码值排序寻找到底是哪个或哪些个案码值出现异常，然后按图索骥，寻找并纠正错误。

2.逻辑一致性清理

逻辑一致性清理相对复杂些，基本思路是依据问卷中关联性问题的逻辑联系来检查前后数据之间的合理性、准确性。这种逻辑一致性既可以体现在问卷中的相依问题，也可以体现为日常生活中的常识性逻辑。如在丁克家庭个案中出现了孩子年龄的答案、在男性成员中出现了“怀孕次数”、在独生子女中出现了“兄弟姐妹”等情况，都属于明显的错误。

相对于有效范围清理，逻辑一致性清理略微复杂些，可以有三个步骤：第一，选择特定类型数据，如丁克家庭数据；第二，对关联性问题进行频数分析，观察是否出现异常值，如观察“丁克家庭”数据中的“子女数”等；第三步，对出现异常值的项目进行排序，寻找并纠正异常值。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈