首页 理论教育 使用进行列联分析

使用进行列联分析

时间:2022-02-14 理论教育 版权反馈
【摘要】:具体数值见数据文件taoke1.sav,比例采用SPSS软件完成列联分析。2.数据预处理,以人数对专业变量进行加权。“McNemar”:McNemar系数,适用于对二维列联表的非参数检验,用于探索试验设计中由于试验的干扰而引起的变化。本章介绍了列联表、列联表的分布、χ2检验的公式步骤、三个相关系数、使用SPSS软件进行列联分析的基本步骤、列联分析结果的解读等内容。

在分析问题时,由于原始数据的形式差异,用SPSS处理时,有一定的步骤差异,下面通过几个例子来说明。

【例6‐3】 某学校对学生逃课情况进行了抽样调查,对学生类别分为理科、文科和工科三类,分别用1、2、3表示;逃课情况分为逃课现象较少、逃课现象一般和逃课现象严重,分别用1、2、3表示。具体数值见数据文件taoke1.sav,比例采用SPSS软件完成列联分析(见图6‐2和图6‐3)。

图6‐2 变量视图

图6‐3 数据视图

【操作步骤】

1.建立数据文件如图6‐2和图6‐3,或者直接打开已经建立的数据文件taoke1.sav。

2.数据预处理,以人数对专业变量进行加权。选择“数据”菜单→“加权个案”,弹出“加权个案”对话框(见图6‐4),选择加权个案,将“renshu”移入“频率变量”框中,单击“确定”。

图6‐4 数据预处理

3.单击“分析”菜单→“描述统计”→“交叉表”,在打开的交叉表对话框中选择变量“zhuanye”进入“行(s)”变量,“taoke”进入“列(c)”变量。选中复选框“显示复式条形图”(见图6‐5)。交叉表对话框中各选项说明见表6‐12。

表6‐12 交叉表对话框各选项说明

图6‐5 交叉表对话框

4.单击“统计量(S)”弹出如图6‐6的对话框,选择“卡方(H)”、“相依系数(O)”、“Phi和Cramer变量”,其他选项是否选择由具体情况确定。选定后点击“继续”。

“交叉表:统计量”对话框各主要选项解释如下。

“卡方(H)”:对行变量和列变量的独立性进行卡方检验,包括皮尔逊卡方检验、Likelihood‐ratio检验、Linear‐by‐Linear Association检验等。

“相关性(R)”:选择该选项还会计算列联表行列两变量的Pearson相关系数和Spearman相关系数。

“名义”:有四个指标。 ①“相依系数(O)”,列联系数,简称为C系数,取值在0与1之间,越接近于0,两个变量独立性越强;②“Phi和Cramer变量”:计算φ相关系数和克拉美值即V相关系数;③“Lambda(L)”:λ值,反映用自变量预测因变量值时的误差比率,Lambda (L)为1时,意味自变量可以很好地预测因变量的值,Lambda(L)为0时,则表示自变量无助于预测因变量的值;④“不定性系数(u)”:其值接近1时表明后一变量的信息很大程度上来自前一变量,其值接近0时,表明后一变量的信息与前一变量无关。

图6‐6 交叉表:统计量对话框

“有序”:有四个指标,用于处理定序测度的数据资料。 ①“Gamma(G)”:反映两个定序测度变量的对称关联程度,其值在-1与1之间,Gamma按绝对值越接近于1表明两个变量之间具有越高的线性相关性,接近于0表明变量之间有低度或无线性关系;②“Somers'd (S)”:是Gamma系数的非对称性推广,其意义与Gamma系数基本相同,不同点仅仅在于它包括与自变量不相关的成对数据;③“Kendall的tau‐b(B)”:肯德尔tau‐b系数,反映相关的定序变量或秩变量的非参数关联程度,其值在-1与1之间,系数的符号反映相关方向,其绝对值越大表明变量之间的相关程度越高;④“Kendall's tau‐c(C)”:肯德尔tau‐c系数,反映忽略定序变量之间的相关关系的非参数关联程度,其取值范围和意义与Kendall's tau‐b系数一致。

“Eta(E)”:Eta系数反映行列变量的关联程度,其值在0与1之间,值越接近于1表明变量之间的关联度越高,值越接近于0,变量之间的关联度越低。

“Kappa(K)”:Kappa系数,用来检验两个模型对同一对象进行评估时是否具有相同的判断。其值为1表明两者判断完全相同,0表明两者没有共同点。

“风险(I)”:相对风险比率系数,反映一个因素与发生的某一特定事件之间的关联程度。

“McNemar(M)”:McNemar系数,适用于对二维列联表的非参数检验,用于探索试验设计中由于试验的干扰而引起的变化。

5.单击“单元格”按钮,弹出如图6‐7所示的对话框,主要功能是设置输出结果的显示。选中“计数”、“百分比”、“残差”等指标。点击“继续”。

图6‐7 交叉表:单元显示对话框

“交叉表:单元显示对话框”各选项解释如下:

“观察值(O)”:表示显示观察值频数,这是系统默认的选项;

“期望值(E)”:在行列变量独立的假设下,显示期望的理论频数;

“行(R)”:显示观察值占该行观察值总数的百分比;

“列(C)”:显示观察值占该列观察值总数的百分比;

“总计”:显示观察值占全部观察值总数的百分比;

“未标准化(U)”:非标准化残差,实际观察值与理论值之差;

“标准化(S)”:标准化残差,均值为0,标准差为1的Pearson残差;

“调节的标准化(A)”:调整的标准化残差,实际观察值与理论值之差除以标准差的值;

“四舍五入单元格计数(N)”:对单元格的累计权重进行四舍五入后才进行统计量的计算;

“截短单元格计数(L)”:对单元格的累计权重先进行舍位,即舍去小数点后数字,才进行统计量的计算;

“无调节(M)”:对个案权重和单元格计数均使用小数,不做调整;

“四舍五入个案权重(W)”:在加权前对个案权重进行四舍五入;

“截短个案权重(H)”:在加权前对个案权重进行舍位。

6.单击“格式”按钮,弹出对话框,如图6‐8所示,选择默认“升序”,点击“继续”。

7.单击“确定”按钮,运算处理,输出结果见表6‐13至表6‐16。

图6‐8 “格式”对话框

8.结论:

(1)如表6‐13所示,参加分析样本总数200个,有效数据200个,没有缺失值。

表6‐13 样本统计

(2)列联表输出。

从表6‐14可以看出,本次调查,理科专业“逃课现象较少”有20人,占理科调查人数55人的36.4% ,占“逃课现象较少”的全部调查人数53人的37.7% ,占本次全部总调查人数200人的10% ,期望频数为14.6人,残差是5.4。其他数据解释类似。从表6‐14中,也可以比较直观地看出各专业逃课现象的差异,明显文科专业“逃课现象严重”比例较高。

表6‐14 输出列联分布

(3)卡方检验,见表6‐15。

表6‐15 卡方检验结果

a:0 cells(0.0% )have expected count less than 5.The minimum expected count is 11.00.

从表6‐15中可知,Pearson卡方值为13.232,其P值为0.010,取α=0.05,P值小于0. 05,因此,应该拒绝H0,认为逃课现象与专业之间是不独立的,两者之间存在相关性。

(4)相关系数,见表6‐16。

表6‐16 相关系数测度表

从表6‐16中可知,φ相关系数为0.257,V相关系数为0.182,C相关系数为0.249,三个数据均不大,可以认为逃课现象与专业之间有一定的关系,但是这种关系的密切程度不太高。

(5)条形图,见图6‐9。

图6‐9 条形图

【例6‐4】 学校对食堂的服务质量进行了一项问卷调查,其中一个题目是关于食堂卫生情况的调查,有三个备选答案:满意、一般、不满意。根据回收问卷,将数据录入电脑,得到数据文件“食堂满意度调查.sav”,请分析食堂满意度与性别之间是否有关联。

【操作步骤】

1.建立数据文件,见图6‐10和图6‐11。1代表男,2代表女;满意度有三个类别:1代表满意,2代表一般,3代表不满意。或者直接打开已经建立的数据文件“食堂满意度调查.sav”。

图6‐10 食堂满意度调查变量视图

图6‐11 食堂满意度调查数据视图

2.单击“分析”菜单→“描述统计”→“交叉表”→“选择变量到行框中”→“选择变量到列框中”→“确定是否显示各变量不同交叉值下的条形图”→“确定是否显示列联表”→单击“统计量”选择输出的统计量→ 单击“单元格”选择列联表中需要计算和输出的指标→单击“格式”选择行变量的排列方式→单击“确定”(见图6‐12至图6‐15、表6‐17、表6‐18)。

图6‐12 交叉表

图6‐13 交叉表:统计量

图6‐14 交叉表:单元显示

图6‐15 交叉表

表6‐17 案例处理简要

表6‐18 sex × myd交叉制表

3.卡方检验,见表6‐19。

表6‐19 卡方检验

a:0单元格(0.0% )的期望计数少于5,最小期望计数为5.06。

4.方向度量和对称度量,见表6‐20、表6‐21。

表6‐20 方向度量

a:不假定零假设。b:使用渐进标准误差假定零假设。c:因为渐进标准误差等于零而无法计算。d:基于卡方近似值。

表6‐21 对称度量

a:不假定零假设。b:使用渐进标准误差假定零假设。

5.条形图,见图6‐16。

图6‐16 条形图

【本章小结】

本章介绍了列联表、列联表的分布、χ2检验的公式步骤、三个相关系数、使用SPSS软件进行列联分析的基本步骤、列联分析结果的解读等内容。

列联分析通过检验实际观测值频数和期望频数之间的差异大小来判断两个分类变量之间是否独立。

当拒绝原假设,即认为两个变量之间不独立时,可以计算相关系数,要注意相关系数在不同列联表之间是否具有可比性。

复习思考题

1.简述列联表的构造与列联表的分布。

2.说明计算χ2统计量的步骤。

3.简述三个相关系数的各自特点。

案例分析

案例:失业原因与教育程度关系的研究

目前我国面临前所未有的就业压力,由于各种原因,也出现了各种各样的失业情况,我们现在想研究的问题是:失业与受教育程度有何关系?

城镇失业人员的失业原因有不同的情况,可分为下岗离开单位、毕业后未找到工作、原单位破产、辞职或被辞退或合同期满、其他原因等五种情况;受教育程度可分为不识字、小学、初中、高中、大专和大学本科及以上。我们现在所关心的问题是:这些失业原因受哪些因素的影响?或者说,在一个更具体的分析中,这些失业原因与失业人员的受教育水平之间究竟有没有什么联系?它们之间的关系怎样?

我们可以将失业原因与失业人员的受教育水平按照各自的分类水平作出一张交叉汇总表(见表6‐22)。

表6‐22 按受教育程度分的城镇失业人员失业原因构成 单位:%

资料来源:马立平,刘娟.应用统计学.北京:首都经济贸易大学出版社,2011.

显著性水平α=0.05,请使用SPSS软件分析失业原因是否与受教育程度有关。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈