市场调查数据的统计技术

时间：2023-06-14 百科知识版权反馈

【摘要】：第三节　市场调查数据的统计技术市场调查数据的统计分析是一项十分重要的工作，其中工作量最大的是问卷统计。近年来，SPSS由于操作简单，生成统计结果方便，被行业内推崇和广泛使用。图7-2　变量视图二、SPSS对调查资料审核的项目对已经回收的调查问卷，SPSS审核的项目主要有以下几方面。

第三节　市场调查数据的统计技术

市场调查数据的统计分析是一项十分重要的工作，其中工作量最大的是问卷统计。在市场调查的初始阶段，问卷用人工统计，当电脑普遍使用后，就开始使用电脑软件进行统计，Excel过去和至今一直被广泛使用。近年来，SPSS由于操作简单，生成统计结果方便，被行业内推崇和广泛使用。

一、SPSS简介

SPSS的全称是:statistical program for social sciences，即社会科学统计程序。该软件是公认的较优秀的统计分析软件包之一。SPSS原是为大型计算机开发的，其版本为SPSSx，20世纪80年代初，微机开始普及以后，它率先推出了微机版本，占领了微机市场，大大地扩大了自己的用户量。如图72所示，首先，它采用现今广为流行的电子表格形式作数据管理器，使用户变量命名、定义数据格式、数据输入与修改等过程一气呵成；其次，采用菜单方式选择统计分析命令，采用对话框方式选择子命令，简明快捷，无需死记大量繁冗的语法语句；第三，采用对象连接和嵌入技术，使计算结果可方便地被其他软件调用。

图7-2　变量视图

二、SPSS对调查资料审核的项目

对已经回收的调查问卷，SPSS审核的项目主要有以下几方面。

（一）搜集的资料是否完整

该项目主要是检查搜集的资料是否完整，所有应问或应答的问题是否都已询问或回答。不完整的答卷分为三种情况:

（1）某一份问卷相当多的问题没有回答，或者某一份问卷不符合多条审核规则的要求，或者不符合少数几条关键审核规则的要求，从而使得后续的研究失去意义。在这种情况下，通常可以将这一问卷作废，同时将调查样本的权数进行调整。

（2）某份问卷个别问题没有回答，这样的问卷应作为有效问卷。对大多数审核失效的数据都应该加以标志（如用特殊代码999标志），未回答的问题留待以后作插补处理。

（3）相当多的问卷对同一问题没有回答，仍作为有效问卷。未回答的问题要查明原因，在资料分析时给予适当注意。

（二）调查对象的答案是否一致

这是指调查对象给出的答案是否一致，是否相互矛盾。若有这些情况，应设法澄清，根据全卷答案的内在逻辑联系对前后不一致的地方进行修正，或将矛盾的答案舍弃。比如，假设某份问卷中关于一位被调查者的背景资料是:受教育程度为研究生，婚姻状况为已婚，性别为男，年龄为17岁。显然，这条记录中，年龄与婚姻状况、年龄与受教育程度之间的关系是不符合审核规则的。为了纠正审核失效，可以同时调整婚姻状况和受教育程度，也可以只对年龄作调整，一般倾向于采用后者。

（三）问卷答案是否明确

检查答案的含义是否明确，对含糊不清、指代不明的答案要设法弄清楚。特别是对于开放式的问题，先要检查调查人员记录的合理性，所记录的应该是调查对象的原话。而且，为了弄清楚事情的原因，应要求调查人员提出追问。

［例］　对这样一个开放式提问:“您为什么在众多价格低廉、方便快捷的经济型酒店中，选择经常去莫泰168？”有三种记录的答案如下:

1.顾客似乎觉得莫泰168有更加舒适和统一的服务环境。

2.因为我喜欢它。

3.我喜欢它，并且我经常去那儿，因为那儿是离我出差工作的地方最近。

请问:哪种记录是合理的呢？

（四）计量单位是否统一

以统一的计量单位记录答案是非常重要的。这样，便于对答案进行归类和比较。

三、SPSS的数据插补

在数据录入后，对记录中的缺省值可能要进行插补。在SPSS窗口的Data→Select Data→Ifcondition is satisfied里有一个“MISSING（）”函数，结合这个函数，Select Data就可以直接找出缺省值。

（一）什么是插补？

插补是对审核过程中发现的、所有缺失信息的记录进行补充或用合适的数值进行替代，确保得出内在一致的记录。插补方法可以归为两类:确定性插补（对于特定的被调查的数据，可能的插补值只有一个）和随机插补（含有随机因素，每次得出的插补值可能会不一样）。

每一种确定性的插补方法都对应着一种随机插补方法。插补数值时，用确定性的方法得出一个插补值，加上从某个适宜的分布或模型产出的一个残差作为最后的插补值，就成为随机插补。随机插补能更好地保持数据集的频数结构，保持比确定性插补方法更真实的变异性。

（二）几种确定性插补方法

1.推理插补

缺失的或不一致的数据能通过推断确定。通常，这种推理是根据问卷上其他回答项的数据得来的。例如，一个四项数值的和是100，其中两项分别是60和40，其余两项空着，那么可推算出这其余两项的值一定是0。

2.均值插补

缺失或不一致的值可用插补类的均值来代替。例如，某问卷中的年龄缺失，可利用与缺失问卷类似的（在性别、文化程度、职业等方面类似的）回答者的平均年龄来代替。

均值插补会得到较好的点估计，但由于在插补类均值这一点形成一个人为的“峰值”，从而破坏了分布状态和变量之间的关系。因此，如果用常规的抽样方差公式进行计算，就会低估最终的方差。

均值插补通常在没有辅助信息可用，或只有少量记录需要作插补处理时，才被采用。

3.比率或回归插补

比率或回归插补是使用辅助信息及其他记录中的有效回答，建立一个比率或回归模型，该模型表明了两个或多个变量之间的关系。

例如，某调查者的收入＝平均收入÷平均受教育年限×受教育年限

比率或回归插补产生的插补值比简单均值法产生的插补值更加稳定，这种方法常用于商业调查中的定比量表。

4.序贯热平台插补

热平台插补是使用相似类型的被调查者的已有记录的信息（供者）来代替一个缺失的或不一致数据（受者）。确定性热平台插补，是用需要插补数据前面最近的一个相似者（供者）的数据来代替受者缺失的数值，如表7-6所示。

表7-6　某中部地区城镇空调器拥有情况的统计表

插补结果:

受者序号　　　　　年收入（千元）　　　　是否拥有空调器　　　供者序号

7 　　　　　　　　　　7000　　　　　　　　　有　　　　　　　　4

9 　　　　　　　　　　9000　　　　　　　　　　　　　　　　　　5

1　　　　　　　　　　　0　　　　　　　　　　无　　　　　　　　6

12　　　　　　　　　　7000　　　　　　　　　有　　　　　　　　4

随机热平台插补，供者是在插补类中随机选出的，因此是一种随机插补方法。为了找到一个与缺失记录相似的被调查者记录，必须先确定与需要进行插补处理的变量相关的变量，建立插补类。这样，插补类中所有通过审核的记录集就可以用来插补缺失的数据。

热平台插补可以用来插补定量数据，也可以用来插补定性数据，但通常只用定性变量建立插补类记录集，并且用人工方式较容易补齐。

5.序贯冷平台插补

冷平台插补与热平台插补类似，不同之处在于热平台插补使用当前调查的供者，而冷平台插补则使用其他资料中的供者。冷平台插补经常使用前期的调查或普查中的历史数据。

四、调查资料的录入及统计整理

（一）建立SPSS数据文件

对于所搜集到的问卷调查资料在使用SPSS软件进行数据分析之前，首先要建立数据文件。通常一个数据文件的建立可以包括定义变量、数据输入、数据的整理、数据文件的保存和输出等内容。其步骤如下:

单击命令窗口的File→New→Data，然后单击窗口左下角的Variable View（变量视图），会出现如图7-3所示的界面。

图7-3　变量视图

这样，就可以对问卷中所有的问题及回答进行定义。其中:

●Name:变量名，一般用问卷中的提问项目的关键词

●Type:变量类型，一般用的是Numeric（数值型）。其列出的8种可选的基本变量类型为:数字型（Numeric）、逗号型（Comma）、句点型（Dot）、科学计数型（Scientific Notation）、日期格式型（Date）、美元型（Dollar）、定制货币型（Custom Currency）和字符串型（String）

●Width:变量的总宽度

●Decimals:小数位数，一般设置为0

●Lable:变量标签

●Values:变量的值（与编码相对应，即对回答项目每类都分配一个数字，单选题、多选题一般事前编码，开放式提问要进行事后编码）

●Missing:缺省值

●Columns:列宽

●Alignment:对齐方式

●Measure:量表测量

接着单击左下角DataView（数据视图），就可以输入样本数据了。每一行记录着一个调查样本的所有回答情况的资料。输入完成后，单击File，选择Save，把输入的数据保存为后缀为“．save”的数据文件。

典型问卷示例如下。

1.单选题

比如，关于平时消费的主要地点的一个问题如下。

［例］　请问您平时消费的主要地点？

1.本区消费　　　2.市中心消费　　　3.其他大城市消费

在Value值栏定义变量的值，如图7-4所示。

图7-4　定义变量视图1

2.多选题

比如，关于平时经常去哪些场所购物的调查如下。

［例］　请问您平时经常去哪些场所购物？

1.购物中心　　　　　　2.大型综合超市　　　　3.百货商店

4.品牌专卖店　　　　　5.便利店　　　　　　　6.食杂店

对于以上题型，常用多重二分法（multiple dichotomy method）进行多选题的录入。具体做法是，以回答项目的各选项作为变量名，用“是”或“否”两项作回答标签，相当于将原来的题型变成了6个问题，分别是:您平时是否经常去购物中心购物？您平时是否经常去大型综合超市购物？您平时是否经常去百货商店购物？您平时是否经常去品牌专卖店购物？您平时是否经常去便利店购物？您平时是否经常去食杂店购物？

图7-5　定义变量视图2

在Value值栏定义变量的值，如图7-5所示。

3.多选并排序题

比如，对于平时休息时间安排的调查问题如下。

［例］　请您在下面7个选项中选出您休息时间安排时认为优先考虑的3个选项，并加以排序。

1.在家看影视、阅读等　　2.逛街购物　　　3.棋牌活动　　　4.看电影

5.体育健身　　　　　　　6.走亲访友　　　7.旅游

第一考虑的选项:　　

第二考虑的选项:　　

第三考虑的选项:　　

图7-6　定义变量视图3

对于以上题型，与第2种题型的数据建立方法类似，即以回答项目的各选项作为变量名，用第1考虑的选项、第2考虑的选项、第3考虑的选项作回答标签，在Value栏定义变量的值，如图76所示。其中，用3表示给第1考虑选项得3分，用2表示给第2考虑的选项2分，用1表示给第3考虑选项1分等。这样取值是为了方便今后的统计分析。

4.开放题

对开放式问题的回答数据录入需要采用以下步骤:

（1）列出所有答案。对于开放性问题，在录入之前，编码员先要将所有回答者的答案浏览一遍，列出所有的可能答案。一般要求所有的答案都应列出。

（2）合并答案。把一些在形式上看来不同，但在本质上相同的答案适当地合并为一类。例如，“您认为我市文化旅游业和商贸业怎样联动发展？”这个提问属于开放性问题，11个回答者回答的内容在形式上都不相同，如表7-7所示。

表7-7　开放式问题回答实例

可以想象，若对100个人询问，可能会得到100种答案！如果不进行归类处理，那么就不容易进行分析。所以，可以将一些意思相近的答案归到某一类中去，从中分析不买的主要原因。

完成合并的过程，就可得到如表78所示的结果。

表7-8　文化旅游业和商贸业联动发展的答案合并分类和编码

（二）调查数据的统计整理

SPSS的数据视图（DataView）菜单栏共有10个选项:

●File:文件管理菜单，功能是有关文件的调人、存储、显示和打印等

●Edit:编辑菜单，功能是有关文本内容的选择、拷贝、剪贴、寻找和替换等

●View:视图菜单，对视窗的外观及字体等的设计

●Data:数据管理菜单，功能是有关数据变量定义，数据格式选定，观察对象的选择、排序、加权，数据文件的转换、连接、汇总等

●Transform:数据转换处理菜单，功能是有关数值的计算、重新赋值、缺省值替代等

●Analyze:统计分析菜单，包括描述性分析、均值比较、显著性检验、聚类分析、因子分析、相关分析等

●Graphs:作图菜单，功能是有关统计图的制作

●Utilities:用户选项菜单，功能是有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等

●window:窗口管理菜单，功能是有关窗口的排列、选择、显示等

●Help:求助菜单，功能是有关帮助文件的调用、查寻、显示等

点击菜单选项即可激活菜单，这时弹出下拉式子菜单，用户可根据自己的需求再点击子菜单的选项，完成特定的功能。

五、调查数据的制图和制表

（一）统计图

在SPSS的Graphs菜单中，包括了各种统计图类型。在调查问卷中，常用的统计图有如下四种。

1.直条图（柱状图）

大多数情形下，统计图都是以组为单位来体现数据的。直条图如图7-7所示，用直条的长短来表示非连续性资料的数量大小。在定义选项框的上方有3种直条图可选:Simple为单一直条图、Clustered为复式直条图、Stacked为堆积式直条图。直条图适用于非连续性的变量。还有一种直方图（Histogram），适用于连续性的变量。

图7-7　居民常去的购物场所的调查统计图

2.线图

调用Graphs菜单的Line命令，绘制线图。线图是用线条的上下波动形式，反映连续性的相对数资料的变化趋势，如城阳区房地产开发投资的增长额，如图7-8所示。而非连续性的资料一般不用线图表现。

图7-8　房地产开发投资增长线图

图7-9　居民平时休闲方式的选择

3.饼图

用一个圆来表现百分比构成，如图7-9所示（上海西克商务咨询公司对某地区居民平时休闲方式的调查结果）。根据圆中各个扇形面积的大小，可判断某一部分在全部中所占比例的多少。

4.散点图

散点图如图7-10所示，用于表现数据的原始分布状况。如果分析的是两变量间的关系，就用简单散点图（Simple）；如果要快速发现多个变量间的主要相关性，用矩阵散点图（Matrix）；如果要在一张图中比较各组变量的相关性，用重叠散点图（Overlay）；如果要分析3个连续变量间的关系，用三维散点图（3D）。在进行聚类分析之前，可以用散点图发现点的密集及其区隔，从而决定将数据分成几类。

图7-10　广告投入与销售额的散点图

另外，用SPSS做出图形后，可以在OUTPUT下双击图形，来对图形进行编辑。比如，改变图形外观、比例、颜色、样式，加上变量和值等。

（二）统计表

1.频数分布表

频数分析一次只考察一个变量，目的是了解该变量不同取值的调查对象的数量。在这个变量中，不同取值的出现频率以百分比的形式展现。一个变量的频数分布可以产生频数、百分比和累计百分比的列表。

表7-9所示是调查上海白领选择男装时，主要考虑的因素排序分析中对品牌排序的统计表。

表7-9　品牌偏好排序表

2.交叉列联表

在市场营销中，更重要的是将各种单一信息相互联系起来，以便进行市场细分，寻找目标市场。比如，在餐饮业市场需求的调查中，由于性别不同，对餐饮的偏好是有很大差异的；股票市场的好坏、市民的月平均花费的计划与外出就餐的费用和餐饮店铺档次的选择有着显著的关联等。而这些假设在市场调查方案设计中，应该有所体现。在这里，通过对列联表的分析，常常用来检验前面的方案设计中所提出的假设是否显著。

其中，双向交叉列表分析是同时有两个变量参加交叉分组的列表分析方法。

比如，调查方案的假设为:

（1）家庭收入越高，外出就餐的几率越大。

（2）家庭人口数越多，外出就餐的费用越大。

（3）家庭收入与家庭人口数（规模）对外出就餐的费用的影响力中，家庭收入的影响更大些。

调查结果列于表7-10～表7-12中。

表7-10　家庭收入与外出就餐的交叉分组的数量分析