首页 百科知识 ×列联表的关联性分析

×列联表的关联性分析

时间:2022-02-21 百科知识 版权反馈
【摘要】:(一)2×2列联表的关联性分析方法说明在实际研究中经常会遇到样本含量为n的一份随机样本同时按照两个二项分类属性进行交叉分类,形成了我们常说的2×2交叉分类四格表资料,也称2×2列联表。为了考察这两种属性是否有关联,则需要进行关联性分析。(二)2×2列联表的关联性分析举例例9-3 某医院对164例曾用过洋地黄药与51例未用过洋地黄药的肺心病患者做心电图检查,结果见表9 3。
×列联表的关联性分析_社会调查与统计分析实验教材

(一)2×2列联表的关联性分析方法说明

在实际研究中经常会遇到样本含量为n的一份随机样本同时按照两个二项分类属性进行交叉分类,形成了我们常说的2×2交叉分类四格表资料,也称2×2列联表。为了考察这两种属性是否有关联,则需要进行关联性分析。

(二)2×2列联表的关联性分析举例

例9-3 某医院对164例曾用过洋地黄药与51例未用过洋地黄药的肺心病患者做心电图检查,结果见表9 3。试分析洋地黄药与发生心律失常之间是否有关联。

表9-3 肺心病患者心律失常观察资料  单位:人

1.分析

此数据资料为2×2列联表,在前面的章节里我们已经介绍过此类资料的卡方检验用以推断两组的心律失常发生率是否相同,此时我们将在卡方检验的基础上进一步分析其关联性,使用的统计量为列联系数C,其计算公式为:

数据录入的格式如图9-13所示。要注意的是,需要对第三列“频数”这一变量进行加权处理。

图9-13 例9-3的数据录入

2.操作

(1)“Analyze”→“Descriptive Statistics”→“Crosstabs”。

(2)将“洋地黄用药史”和“心律失常”分别选入“Row(s)”和“Column(s)”,如图9-14所示。

(3)单击“Statistics...”按钮,在弹出的对话框(见图9-15)中选择“Chi-square”和“Contingency coefficient”,点击“Continue”回到如图9-14所示界面,再点击“OK”按钮。

图9-14 例9-3的卡方检验界面

图9-15 例9-3的统计量对话框

3.界面说明

图9 14为前面章节所讲到的卡方检验的对话框,在此不再赘述。图9 15为选择关联性统计量的对话框,里面可以计算多种相关系数,具体如下:

(1)“Chi-square”:进行卡方检验,输出Pearson卡方值,对于四格表资料还会自动给出校正卡方检验和确切概率法的结果,并分别给出单侧和双侧的P值供读者选用。该检验用于检验行、列变量是否独立,并提示是否满足卡方检验的要求。

(2)“Correlations”:计算行、列变量的Pearson相关系数和Spearman等级相关系数。与前面提到的连续型变量的相关分析一样,可见此处相关系数的种类非常丰富。

(3)“Nominal”复选框中包含了一组用于反映分类变量相关性的指标,这些指标在变量属于有序和无序时均可使用,但两变量为有序时其检验效率没有右边的“Ordinal”里的统计量高。“Contingency coefficient”为列联系数C,是基于卡方值得出的,是常见的分类变量关联性的指标,既可用于2×2列联表也可用于多行多列的列联表,本例需要选此统计量。“Phi and Cramer's V”为两种统计量,这两者也是基于卡方值的,Phi的取值在四格表中为0~1,在其他列联表中取值没有上限;Cramer's V是Phi的一个调整,使得其取值在任何列联表中均不会超过1,可以与其他相关系数进行比较。“Lambda”为λ系数,用于反映自变量对因变量的预测效果,即知道自变量的取值时期望预测误差个数减少的比例,其值为1时表明知道了自变量就可以完全确定应变量的取值,为0时表明完全无预测作用。“Uncertainty coefficient”为不确定系数,与Lambda系数相似,也用于反映当知道自变量后,应变量的不确定性下降的比例。

(4)“Ordinal”复选框中包含了一组只能用于反映两变量均属于有序分类时的相关性的指标。它们均是基于Goodman和Kruskal的Gamma(γ)系数衍生出来的。“Gamma”为描述有序分类数据联系强度的度量,计算公式比较简单,用两倍的一致对子数和两倍不一致对子数差除以其和即为γ系数; “Somers'd”(d)系数由Somers所创,校正了自变量相等的对子,会分别给出各自为自变量的d系数;“Kendall's tau-b”由Gamma系数改进而来,对相等的对子进行了校正,该指标有时被称为Kendall's等级相关系数;“Kendall's tau-c”在Kendall's tau-b的基础上进一步考虑了整张列联表的大小,并对其进行了校正。在这四个统计量中使用得较多的还是第一个Gamma系数。

(5)“Nominal by Interval”复选框中的“Eta”是测量一个名义变量和连续变量间相关程度的指标。Eta值的平方表示由组间差异所解释的应变量的方差的比例,SPSS会计算出两个Eta值,分别对应着行变量为因变量和列变量为因变量的情况。

(6)“Kappa”:计算内部一致性系数,取值在0~1,Kappa值大于0.75表明两者一致性较好,处于0.75~0.4表明一致性一般,小于0.4表明一致性差。

(7)“Risk”:计算OR值和RR值,分别为比值比和相对危险度。

(8)“Mc Nemar”:进行Mc Nemar检验,用于配对设计的卡方检验,不仅可用于四格表还可用于多行多列的配对列联表的卡方检验。按照二项分布的原理计算出确切概率。

(9)“Cochran's and Mantel-Haenszel statistics”:为两个二分类变量进行分层卡方检验,即层间的独立性检验和同质性检验,同时可进行分层因素的调整。“Test common odds ratio equals”是设定相应H 0假设的OR值,默认为1。

4.结果解释

图9-16为常见的卡方检验的结果框,共有6行值,由上至下分别是: “Pearson Chi-square”(Pearson卡方值)为2.303,后面分别是自由度为1,双侧近似概率P值为0.129,差异无统计学意义。如果设置了精确算法,后面的两列将列出单侧和双侧的精确算法P值。“Continuity Correction”(连续校正的卡方值)为1.841,当总例数大于40,但有一个格子的理论数处于1~5时,可以使用此行的值,自由度为1,P值为0.175,差异无统计学意义,与Pearson卡方的结果一致。“Likelihood Ratio”为似然比卡方,与Pearson卡方的计算公式不一样,在处理多维表时有更大的优势,一般情况下与Pearson卡方的结果是一致的。“Fisher's Exact Test”为Fisher精确算法,对于四格表资料会自动给出精确算法的结果,列联表需要另外选择精确算法才会有精确算法的结果。此处双侧检验P=0.149,单侧检验P=0.087。“Linear-by-Linear Association”为线性卡方,用来检验行变量与列变量之间有无线性相关,一般用于连续型变量,列联表中很少用。“N of Valid Cases”为有效例数,本例为215例。

图9-16 例9-3的卡方检验结果

图9-17呈现了列联系数(Contingency Coefficient)的值,即C=0.103,关联性很弱,近似的P=0.129,说明此关联系数无统计学意义,尚不能认为心律失常的发生与曾经使用洋地黄药物有关联。若还进行了Bootstrap分析,则会如图9-18所示给出列联系数的95%可信区间为0.007~0.224,与常规统计方法的结果很接近。

图9-17 例9-3的相关分析结果

图9-18 例9-3的Bootstrap抽样相关分析

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈