根据变量层次选择统计分析方法

时间：2023-06-17 百科知识版权反馈

【摘要】：第三节　根据变量层次选择统计分析方法市场分析中统计分析方法的选择除了考虑研究目标的因素，还要考虑调查所得数据本身的特征，即市场变量的层次。一般而论，特别为定序变量所设计的统计分析方法，应用时所处理的数值必须成连续性的分布。另外，通常为定类变量设计的统计分析方法，也可以用来处理定序变量的资料。

第三节　根据变量层次选择统计分析方法

市场分析中统计分析方法的选择除了考虑研究目标的因素，还要考虑调查所得数据本身的特征，即市场变量的层次。因为，作为在市场调查和分析中可以取两个或两个以上值的变量来说，它具有质的差异和量的不同，有间断的和连续的区别，同时，它所具有的数学性质也不同，使对其测量也有不同的尺度。因此，统计分析方法的选择必须充分考虑变量的层次。

一、变量层次

按史蒂文斯（S.Stevens）1951年创立的被广泛采用的测量层次的分类法，共有四个层次的变量：

（一）定类变量

定类变量是与测量的定类尺度相对应的一类变量。所谓定类尺度，是最低层次的测量，它实质上是一种分类体系，即依据调查对象的性质，将之归入不同的类别，而没有次序、高低或好坏的差别。这些类别必须是相互排斥的，而且要能包容所有的研究对象，亦即没有一个对象是不属于其中一类的，也没有任一对象可以同时属于两类。这样的变量便是定类变量，性别、职业、婚姻状况等等都是这类变量。

定类变量反映的是质的区别，有时我们也可以用量的数字来表现变量取值，但这些数字仅只用做符号，而不代表类别的量的特性，不能做加、减、乘、除等数学运算，如我们常常在问卷中用“0”代表男性，用“1”代表女性；用“1”代表“是”，用“2”代表“否”。

对于定类变量，由于本身表示性质的特性，使其在统计分析中不能进行加减乘除的运算，因此，它只适用于某些统计分析分法。

1.在单变量分析中，在集中趋势分析中它只能使用众数这个量数，在离散趋势分析中只适用异众比率，而中位数、均值、四分互差、方差等量数则不能用来对定类变量进行分析。

2.在双变量分析中，定类变量仅可以进行相关分析及两总体假设检验分析等，而回归分析、因子分析则需要较高层次的变量。

（二）定序变量

定序变量也称为等级变量、顺序变量，它相应于定序尺度测量。

定序变量与定类变量的区别，在于比前者多了一个“有方向次序”的特性，即定序变量的取值可以按照某种逻辑顺序将调查对象排列出高低或大小，确定其等级次序，每一取值可以视为高于或低于、大于或小于其相邻的取值。

例如，人们的文化程度按大、中、小学和文盲顺序取值；人们对某样商品的态度分为非常满意、比较满意、一般、比较不满意、很不满意等等。定序变量的数学特性比定类变量高了一个层次，也就是说，它不仅能区别种类，而且能够确定其大小，可以用数学符号“＞”或“＜”来表示。

但需要注意的是，定序变量只能描述类别间在某一特质上的次序，而不能描述类别间差异的大小。如果两消费者分别对某产品的评价是“非常满意”和“比较满意”，我们只能说前者的满意度较高，但却无法说出前者比后者多满意多少。

一般而论，特别为定序变量所设计的统计分析方法，应用时所处理的数值必须成连续性的分布。

另外，通常为定类变量设计的统计分析方法，也可以用来处理定序变量的资料。

在单变量分析中，定序变量也可以用众数、异众比率来描述其特征，但这些量数都丢失了许多信息，定序变量最合适的集中趋势量数应是中位数，离中趋势量数是四分互差。

在双变量分析中，定序变量也可以进行普通列联表分析，但它还可以进行等级相关分析，如Somers＇d系数、斯皮尔曼等级相关系数、Gamma等级相关系数等，这些统计分析法充分利用了定序变量取值的次序性，是其最合适的分析工具。

（三）定距变量

定距变量也称等距变量、区间变量。

定距变量不仅能将市场现象区分类别和等级，还能确定变量取值间的数量差别和间隔距离。定距变量数值的每一间隔都是相等的，由于有了相等的量度单位，就引入了数量变化的概念，因而只有从定距变量开始才真正显示了事物在数量方面的差异，这是它的优点。但它也有缺点，即缺乏真正的零点，也就是说这类变量的数值只能做加减，而不能做乘除法运算。

在市场研究中，很多测量工具（尤其是态度量表这种经过标准化的测验）都可提供等距性的分数，而使测量结果成为等距变量，以符合实际应用的方便。因此，等距变量的应用范围也较宽。

专为类别与等级资料所设计的统计方法，也可以用来分析等距变量。但是一般认为，如果已经取得了较高层次的变量，最好就采用专为该一变量层次所设计的统计方法处理资料，而不宜采用适合于较低变量层次的统计工具。

在单变量分析中，应使用均值进行集中趋势分析、用方差或标准差进行离中趋势分析。

在双变量或多变量分析中，定距变量之间可以进行回归与相关分析，从而充分反映研究现象间的数量关系。

（四）定比变量

定比变量除了可以表示类别、排出次序、算出差距，即具有上述三种变量的全部性质以外，它还具有一个共同的基准——有实际意义的零点（绝对零点），所以它的数据既能做加减运算，又能做乘除运算，例如身高、体重、人数等都是定比变量，是否有实际意义的零点存在，是定比变量与定距变量的惟一区别。

与定距变量相比，定比变量更有利于反映变量（市场现象）之间的比例或比率关系。

然而，通常在分析等比变量时，所用的统计方法与分析定距变量的相同。

二、统计分析方法的选择

（一）数量变量与品质变量的区分对选用统计分析方法的影响

在了解了变量的层次后，我们再集中说明一下数量变量与质量变量的差别及统计方法的选用。

选用统计分析方法，首先要区别资料是数量变量或品质变量。因为数量变量与品质变量各有适用的统计分析工具。

1.数量变量。

所谓数量变量，是指变量本身具有可以测量的数值单位，亦即可根据某些变项的特征做量的连续排列。例如收入便是一个数量变量，因为它可根据“元”这个可测量的数值单位计算出来。此外，数量变量资料具有可加性质与相等间隔，且有时具有一个绝对零点。

在市场研究中，年龄、收入、某商品的月消费量等，都是数量变量的例子。前述的等距变量与等比变量都属于数量变量。

对于数量变量的资料，研究者可以计算平均数、标准差及多种相关系数，如积差相关、复相关（multiple correlation）、偏相关（partial correlation）及相关比（correlation ratio）等，并可进而从事方差分析、回归分析（regression analysis）、因子分析（factor analysis）、路径分析（path analysis）及其他复杂的分析方法。在检验统计假设时，可以采用T检验（T-Test）与F检验（F-Test）。

2.品质变量。

所谓品质变量，是指变量本身并不具有可以测量的数值单位，而是仅可根据一项或数项所描述的特质加以区分。例如，性别是一个品质变量，而它之成为变量，并不是根据性别本身的可以计算的数值单位，而是根据男与女的品质类别。前述的定类变量属于品质变量。

对于品质变量的资料，研究者可以计算频次、百分比、及各种非参数的相关系数如Φ相关、四分相关（tetrachoric correlation）、双列相关（biserial correlation）等，并可从事频数变异数分析，及运用非参数相关系数的因子分析。在检验统计假设时，可以采用x²及非参数的统计检验方法。

界乎数量变量与品质变量之间的是等级变量，其特点是具有顺序性的等级特征。大体而言，凡是以次序排列法所获得的资料（如代表相对满意程度的等级分数），都是等级变量，即定序变量，对于定序变量的资料，分析者可以计算各种等级相关，如Somers＇d系数、斯皮尔曼等级相关系数、Gamma系数与肯氏τ系数等，并能够检验某些所得相关系数的统计显著性。

数量变量与等级变量可以转化为品质变量，其方法是将数量变量或等级变量分成数组，并变成次数分配的形式。

例如，我们可以将被访者月收入分为五组：①500元以下；②500元～999元；③1000元～1999元；④2000元～4999元；⑤5000元以上。这样五组就成为被访者月收入的五个类别，从中可以算出各个类别的人次数和百分比。在市场研究中，如上例这样将数量变量转变成几个组别的品质变量，再以适用于品质变量的统计方法加以分析，是经常可以见到的。这种做法是为了采用比较简单的统计方法从事分析，但其缺点也是明显的，即浪费了许多信息资料，这当然比较可惜，因为一次调查是很不容易的。所以，如果分析的假定条件满足及时间和经费允许，原先是数量变量的分析，最好不要转变为品质变量或等级变量。

相反地，品质变量转化为数量变量，则几乎是不可能的；但定序变量比较特殊，在某些情况下，我们可以赋予其数量意义，而将之当做定距变量对待。

（二）自变量与因变量数目也影响到统计方法的选用

统计分析方法的选择也受到自变量与因变量数目的影响。所谓自变量，一般是指该变量的变化会影响到其他变量的变化，换言之，在一项研究中，某一变量会影响到其他变量的变化，而就某一特定关系而言其本身的变化并不受其他变量变化的影响，则此变量即为自变量。

一变量被称为因变量，则指其变化可以从自变量预测而来。在实际的市场研究中，我们假定因变量的变化是由其他变量（自变量）的变化所导致的。对自变量所做的观察，可以提供我们做预测的基础。例如，我们知道某家庭月收入越高，便可以预测它可能进行的投资越多。

在市场研究中，自变量与因变量的决定，可以遵循以下两个原则：

第一，将性质当做自变量，将倾向与行为当做因变量。

性质与倾向的主要区别，在于前者是一种比较持久、固定的特征，是不依赖于某些条件的变化而变化的，如性别、年龄、教育程度、职业等，都属一个人的性质；另外，产品的规格、包装、色彩也可看做一种相对固定和持久的属性。而倾向则是指个人在某种情况可能会做某种反应的趋势。一个人对某品牌商品有较强的偏好，往往是由于该消费者某些特征和该商品的某一性质引起的。

第二，将倾向当做自变量，反应或行为当做因变量。

在研究设计中，除可以分析性质与倾向之间的关系外，还可以将倾向当做自变量，而把反应或行为当做因变量。在市场研究中常加以分析的倾向有动机、态度等，以这些倾向作为自变量，便可探求其与行为（因变量）之间的关系。例如，可以研究消费者的品牌态度对其购买行为的影响、消费者的个人嗜好对其购买行为的影响，等等。

自变量的数目决定选择一元还是多元统计方法，如果因变量不止一个，则要选择一些复杂的统计方法。

研究者在确定了分析中自变量与因变量的数目，并确定了变量的层次以后，就可以选择适当的统计分析方法，以下要点可供参考：

1.假如自变量与因变量都是定距或定比变量，则可运用相关法，如皮尔逊相关、复相关，偏相关等。

2.如果自变量是定类或定序变量，而因变量是定距或定比变量，则可运用T检验或方差分析。

3.假如自变量与因变量都是定类变量，则可以使用卡方检验。

4.假如自变量与因变量都是定序变量，则可以使用前面讲的处理等级的相关法。

5.假如因变量不止一个，则需要运用如因子分析、复变异分析此类统计方法。

以上讲了针对调查变量的层次和变量数目所应选择的统计分析工具，在实际研究中，研究者往往并不固守原始资料的性质和固定变量的数目，而常会转换变量的层次和变量个数，以便运用适当的统计分析方法获得满意的结果。

（三）调查数据分布的类型也会影响统计分析方法的选择

统计分析方法还受到调查数据分布的类型的影响。我们在选用统计分析方法时，市场调查所搜集数据的分布类型也是应该考虑的因素。

例如，在进行资料的集中趋势分析时，可以根据数据的分布类型，选择三种最常用的集中量（众数、中位数、均值）。当数据呈常态分布时，均值最能代表集中趋势，但当数据呈偏态分布时，则以众数或中位数较佳。

更为主要的是，统计分析用的公式，都是在一些有关数据分布类型的假定之下推导出来的。因此在使用每一统计方法之前，分析者必须先要确定资料的分布类型是否与该方法公式背后的基本假定相符。如线性回归分析中，要求因变量Y值的每一个子总体满足正态分布；在定距变量分析中计算相关系数时，要求变量分布满足正态性。如果计算相关的两个变量在分布类型上不符合这一要求，则所得相关关系存在较大问题。有些研究者因为不太注意统计分析方法背后的基本假定，或未留心所得数据资料的分布类型，以致选用了效力较弱的统计方法，甚至选错了统计分析的工具，从而会大大影响分析的科学性和准确性。

不过，在处理某些变量时，如果分布的假定不能满足，这时可以降低变量层次来处理，如上面所讲的计算定距变量的相关系数时，若变量分布不满足正态性，这时可将之通过分组降至定序变量分析，因为等级相关系数对总体分布是不作要求的。

统计分析方法作为市场分析中的重要方法，需要我们根据各种条件适当运用、灵活使用，只有这样，才能发挥其优势，完成市场分析的任务。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈