首页 理论教育 两个变量的统计描述

两个变量的统计描述

时间:2022-04-22 理论教育 版权反馈
【摘要】:三、两个变量的统计描述在描述单变量分布的基础上,还可以进一步描述一些变量之间的关联关系。(一)交互表当表现两个定类变量的关联关系时,可以根据用做分类的变量,考察另一个变量的频数和比例这两个统计量。一般来说,按照自变量的合计计算因变量的各类所占的百分比更有意义。这里要求这两个变量必须是定距/定比变量或者定序变量。

三、两个变量的统计描述

在描述单变量分布的基础上,还可以进一步描述一些变量之间的关联关系。常用的方法是作交互表、条形图、散点图、计算相关系数等。

(一)交互表

当表现两个定类变量的关联关系时,可以根据用做分类的变量,考察另一个变量的频数和比例这两个统计量。这样的表在统计学中称为交互表(cross-tables)或者二维列联表(contingency tables)。在数据分析中,交互表也是最常用的描述变量分布和关系的主要方式之一。例如,表3—4就是为了反映白领观众平时和周末晚上8:30~9:30所看电视节目不同之处所制作的交互表。[2]

img165

表3—4   平时和周末白领观众最可能看的电视节目

img166

表3—4中出现的是不同类别的百分比,每一个百分比是基于相同的样本量去进行计算的。可以看出,平时晚上和周末晚上白领可能看的节目是有一些不同的,例如,平时晚上可能看电视剧的比例高一些,而周末晚上可能看综艺节目的比例高一些。但是比较的效果不够明显,如果借助条形图表现则可以更清楚,稍后将进行说明。

交互表还可以表现同一样本中按某一个变量分类后各类的不同之处,例如,表3—5是一个模拟的不同性别的人对数字电视感兴趣情况的交互表。

表3—5   男性和女性对数字电视感兴趣情况的交互表

img167

这张交互表是基于同一样本的两个变量制作的。但是,每个格内出现频数不如出现百分比更有帮助。不过这时面临着选择,以什么为基数计算百分比呢?

交互表中的百分比有两种计算方式:一种是以行合计为基数进行计算,得到的百分比称为行百分比(Row%);另一种是以列合计为基数计算,得到的百分比称为列百分比(Col%)。这两个百分比究竟哪个更有用,这要根据考察问题的角度来决定。如本例中,假如想要知道不同性别的人中,对数字电视感兴趣的程度,就需要计算行百分比,如男性中,对数字电视非常感兴趣的比例是49/(8+12+51+49)=41%;假如想要知道不同兴趣程度的人中,性别是怎样分布的,这时候就需要计算列百分比,如对数字电视非常感兴趣的人中,男性的比例是49/(49+35)=58%。行百分比和列百分比只是相对的,一旦把频数表中的两个变量交换位置,行百分比和列百分比表达的含义也跟着产生变化。一般来说,按照自变量(分类变量)的合计计算因变量的各类所占的百分比更有意义。比如本例中,分类变量是性别,因此应计算不同性别的人对数字电视感兴趣的情况,即行百分比,如表3—6所示。

表3—6   男性和女性对数字电视感兴趣情况的交互表

img168

根据这张交互表就可以比较不同性别(可以把男性和女性分别作为子总体)的人对数字电视感兴趣程度的差异。比如,男性表示“非常感兴趣”和“有些感兴趣”的比例都高于女性,而女性表示“一点不感兴趣”和“不太感兴趣”的比例都高于男性。这似乎说明了对数字电视感兴趣的程度和性别是有一定关系的。

有时如果需要考察三个变量之间的关联性,则可以做出三维的交互表,即先根据其中一个变量的值进行分类,对每一类都做出另外两个变量的交互表即可。

需要注意的是,如果样本量很小,交互表的格数又很多,可能大部分格内的频数数值都很小,这时就最好不要计算百分比而直接给出频数即可。因为计算百分比本身要求基数不能太小,否则百分比就没有意义。

(二)条形图

刚才已经讲述了可以用条形图展示一个变量的分布。而条形图用得最多的应该是展现两个变量的关系,作图时需根据一个变量的值进行分类作另一个变量的值的分布情况。例如,根据表3—5可以制作如图3—20所示的条形图。

上文已经提到交互表是展现两个变量关联性的最常用形式,但数据表终究不如图形直观明了,而条形图则是展现交互数据的最好方式。

img169

图3—20 白领观众平时晚上和周末晚上可能看的电视节目

从图3—20中可以清楚看出平时晚上和周末晚上白领观众最可能看的电视节目情况,平时主要集中在电视剧,周末主要是综艺节目。

img170

图3—21 男性和女性对数字电视的感兴趣程度

图3—21是根据表3—6中的数据产生的,而比表3—6有更强烈的表现效果。

在表现单一变量分布时,条形图可以根据比例产生,也可以根据频数产生,图的形状不变。而表现两个变量的条形图只能根据比例产生,因为依据分类变量分类后每一类人数不相同,这时比较频数是没有太大意义的,这一点需要十分注意。

条形图还有很多变种的形式,使用时应根据数据的特征来选择最合适的一种,比如图3—22可表现强烈的态度对比。

img171

图3—22 白领观众认为时尚的内容和感兴趣的内容之对比条形图

从图3—22中可以明显看出:白领观众感兴趣的内容和时尚的内容是明显分为两块的。他们认为时尚的东西却不那么感兴趣,而感兴趣的东西又不认为是时尚的。

(三)散点图

在前面的内容中曾提到,如果不确定两个变量之间是否有线性相关关系时,可以先做出图形,指的就是散点图。

散点图是用两个变量确定一个直角坐标系(自变量放在横轴,因变量放在纵轴),然后把所有的研究个案根据这两个变量的值全部以点的形式表示在该坐标系中而得到图形。这里要求这两个变量必须是定距/定比变量或者定序变量(近似当做定距变量分析时)。

来看一个如何制做散点图的例子。广播、电视和网络广告一般是用千人成本(CPM,Cost per thousand)来度量广告成本。CPM是指要接触到一千位受众,广告商所需的成本费。表3—7列出了50个城市的电视广告千人成本(元)和电视机拥有率(%)的模拟数据,要考察这两个指标之间是否存在关联,首先可以做出这两个变量的散点图。

表3—7   50个城市的电视广告千人成本和电视机拥有率

img172

续表

img173

现在假设电视机拥有率会对电视广告千人成本产生影响,因此自变量是电视机拥有率,在绘制散点图时应该把它放在横轴上。图3—23是最终做出的散点图,图中每一个点代表一个城市。比如,编号为1的城市的电视机拥有率是88、电视广告千人成本是25元,它所在的点就是(88,25)。在横轴上找到88的位置并向上做一条垂线,在纵轴上找到25的位置并向右做一条水平线,这两条线相交之处就是该城市所在的位置。

img174

图3—23 电视机拥有率和电视广告千人成本的散点图

从这张散点图中可以看出,电视机拥有率和电视广告千人成本的分布大致呈现某种规律性,即电视机拥有率越高,电视广告的千人成本就越低。

对于两个变量,如果当其中一个变量的值越大时,另一个变量的值也往往越大,我们就称这两个变量正相关;如果当其中一个变量的值越大时,另一个变量的值反而往往越小,体现在散点图中就是点的分布大致呈一条下降的直线,我们则称这两个变量负相关。像本例的这种情况,我们就说这两个变量是负相关的关系。

散点图除了可以呈现两个变量之间的相关状态,同时也可以显示出偏离整体形态的一些个别的观测值,这些点可能是由于资料本身偏离整体引起的,也可能是由于某种错误引起的。比如本例中,假如在数据输入时因手误将最左边的那个点(电视拥有率58,千人成本42)输为(电视拥有率58,千人成本22),则散点图中它就远离整体,成为偏离点,见图3—24。

img175

图3—24 电视机拥有率和电视广告千人成本的散点图(有偏离点)

偏离点对很多统计分析方法都有很大的影响,因此要找出对应的个案,看数据是否有误,如果是因为错误引起的,就要更正;如果是因为资料本身的原因引起的,则应该考虑在统计分析中是否需要舍弃这份资料或对它进行单独的分析。

(四)相关系数和相关系数表

散点图在直观上呈现了两个变量之间关联的方向和强度。在各种相关中,直线相关是最普遍和简单的,它是最重要的一种相关形态。当点的分布很接近直线时,直线相关就很强,而当点在直线附近散布很广时,直线相关就较弱,甚至不相关。直线相关的程度究竟有多强,可以用相关系数这个指标来度量。

相关系数通常用符号r表示,它描述了两个变量之间直线相关的方向和强度。对于表3—7的数据,计算得到r=-0.614,表明电视机拥有率和电视广告千人成本呈负相关。相关系数r本身并没有度量单位,它是用标准分计算得到的,当改变两个变量中任何一个变量的度量单位时,相关系数并不会改变。比如表3—7中的数据,如果电视机拥有率不是以比例中百分号左边的数字表示而是采用小数的方式(比如80,现在用0.80表示),r的值不变。

相关系数会受到少数偏离整体的观测值的严重影响。当散点图中出现偏离点时,使用r解释数据要特别小心。

在描述调查数据的最初阶段,常做出有关变量之间两两对应的相关系数表(相关表)。在做相关系数表时,对定类变量要先作定量化的处理,常用的方法之一是采用哑变量处理(参见本书第二章第三节)。根据相关系数表,研究者可以进一步分析其中一些变量间的关系,进一步构造或验证有关的定量模型。由于初期相关系数表所起的作用是探索性的,即研究者所关心的并不真正是变量间相关的确切数值或大小,而是“哪些变量间可能是相关的,哪些变量间的关系是需要进一步研究分析的”,因此有时在相关表中并不一定要将相关系数的具体数字列出。

另外,在呈现相关分析的结果时,也往往需要构造一份相关系数表,并标出哪些相关系数是显著的。为了清晰明了地把握主要矛盾,需要将显著相关的变量用星号“*”标识出来。但究竟哪些相关系数是显著的,还要借助推断统计学的方法,将在本章第二节和第三节讲述。

表3—8是白领观众关于住房方面一些内容个人感兴趣的和评价为时尚的二者之间的相关系数表。

表3—8   关于住房方面时尚和感兴趣之间的相关系数

img176

**表示在0.01的显著水平下相关。

*表示在0.05的显著水平下相关。

表3—8中的数字是两个相应变量的相关系数,用“*”标示表示经过假设检验,两个变量是相关的。用“**”表示在很低的错误可能下(一般是1%),显著地相关;用“*”表示在较高的错误可能下(一般是5%)相关。在相关表的尾部,通常应该注明假设检验的错误水平。

表3—8表明,关于住房方面的所有内容感兴趣和时尚之间几乎都呈强烈的负相关。即白领观众越认为是时尚的内容,就越不感兴趣;相反越感兴趣的内容,就越不认为是时尚的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈