首页 理论教育 计数资料常用的统计学分析方法

计数资料常用的统计学分析方法

时间:2022-05-09 理论教育 版权反馈
【摘要】:计数资料的处理,一般先计算相对数,相对数是指两个有联系的指标之比。医学上常用的率有发病率、患病率、死亡率、病死率、治愈率、感染率等。如比较两个地区总死亡率时,两组资料的年龄、性别构成不同,可按男性和女性分别进行比较,也可计算标准化率进行比较。1.四格表资料的χ2检验 用于两个样本率的比较。

二、计数资料常用的统计学分析方法

(一)统计描述

计数资料的处理,一般先计算相对数,相对数是指两个有联系的指标之比。医学中常用的相对数有率、构成比、相对比,然后再根据研究目的进行假设检验,以推论样本所代表的总体。

1.率 又称频率指标或强度指标,是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的观察单位数之比,用来说明某种现象发生的频率大小或强度。常用百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示(例7-10)。计算公式为:

img52

公式中的100%或1000‰等主要依据习惯而定,其主要目的是使算得的率至少保留1~2位整数,以便阅读比较。如感染率、治愈率常用百分率;出生率、死亡率多用千分率;肿瘤死亡率则用十万分率等。医学上常用的率有发病率、患病率、死亡率、病死率、治愈率、感染率等。

【例7-10】 某校护理系有1 250名学生参加护士资格证考试,其中1 200名学生考试通过,则通过率为:1 200/1 250×100%=96%。

2.构成比 表示某事物内部各构成部分所占的比重或分布,常以百分数表示,故又称为百分比(例7-11)。计算公式为

img53

构成比有两个特点:①各构成部分的构成比总和应为100%;②某一构成部分所占比重的增减,会相应地影响其他部分的减少或增加,各构成比之间是相互制约的。

【例7-11】 某学校护理系2008年和2010年各教研室人数见表7-3,试计算各教研室人数占总护理系总人数的构成比。

表7-3 护理系2008年和2010年教研室人员构成比

img54

3.相对比 相对比是两个有关联的指标之比,常以倍数或百分数表示(例7-12)。计算公式为:

img55

【例7-12】 某市2006~2010年共发生疟疾3 586例,其中男性2 097例,女性1 489例,求男、女性比例。

img56

表示某市5年来疟疾病人中男性发病数为女性的140.8%,或说男性发病人数为女性的2 097/1 489=1.41倍。

相对比的两个指标可以性质相同,如某病患病者的男女性别比;也可以性质不相同,如病房护士数与床位数之比。计算相对比时,两指标既可以是绝对数,也可以是相对数或平均数。如某县调查乙肝感染率,男性为16.53%,女性为8.45%,故性别感染率的相对比为0.1653/0.0845=l.96,即男性感染率为女性的1.96倍。习惯上,计算相对比时,若甲指标大于乙指标,结果用倍数表示;甲指标小于乙指标,结果用百分数表示。

4.应用相对数时的注意事项

(1)分母不宜过小 计算率或构成比时,分母代表样本例数,一般地说,样本例数越大,计算的相对数可靠性也越大;若样本例数过小时,则相对数不稳定,偶然性大,可靠性差,容易造成很大误差。如用某药治疗某病患者,4例中治愈3例,即报道治愈率为75%,显然此治愈率极不稳定,应以绝对数表示为好。

(2)不能将构成比与率相混淆 构成比是说明某事物内部各组成部分所占的比重或分布,率是说明某现象发生的频率或强度,两者有着本质的不同,因此,在资料分析中,不能以构成比代替率。但在实际工作中,以构成比代替率的错误现象时有发生。例如某校护理系通过护士资格证考试的学生共1200人,其中大专生有1000人,占83.3%,中专生有200人,占16.7%,这时容易错误地得出大专生通过率较高的结论。实际上这组数据只反映出通过的学生中大专生多于中专生,不能反映出大专生的通过率。要比较二者的通过率,必须用通过了的大专生人数(中专生人数)除以当时参加考试的总大专生人数(总中专生人数)。

(3)资料的对比应具可比性 对多个率或构成比进行比较时,要注意其可比性,即在相同条件下比较才有意义。通常应注意两点:①观察对象同质、研究方法相同、观察时间相等,其他非研究因素尽可能一致;②资料的内部构成是否相同。若两组资料内部构成不同时,应分组计算频率指标进行比较或进行率的标准化后再作比较。如比较两个地区总死亡率时,两组资料的年龄、性别构成不同,可按男性和女性分别进行比较,也可计算标准化率进行比较。

(4)对样本率(或构成比)的比较应作假设检验 当两组或两组以上样本率(或构成比)进行比较时,不要凭表面数值大小下结论。与均数的抽样研究一样,样本率和构成比也有抽样误差,故应作率的假设检验。

(二)统计推断

两个或多个样本率/构成比的比较通常采用χ2检验,也称卡方检验,是一种用途较广的假设检验方法,应用于分类变量资料中,可推断两个或两个以上总体率(或构成比)之间有无差别,配对设计分类变量资料之间有无差别,两变量之间有无相关关系等。χ2检验的要点是检验事物的“实际数”与假设的“理论数”的差别是否有统计学意义。

1.四格表资料的χ2检验 用于两个样本率的比较。四格表是指由4个基本数据组成的表,这4个基本数据分别用a、b、c、d来表示,其余数据都是由这四个基本数据推算出来的,这种资料称四格表资料。其基本公式为:

img57

式中字母含义见例7-13。

四格表资料一般形式为表7-4:

表7-4 四格表资料一般形式

img58

【例7-13】 某医生研究吸烟与慢性支气管炎的关系,得到表7-5资料,试问吸烟是否容易导致慢性支气管炎的发生?

表7-5 吸烟者与不吸烟者的慢性支气管炎患病率比较

img59

(1)基本公式计算法 假设检验步骤如下。

1)建立检验假设

H0:π1=π2,即两组患病率相同。

H1:π1≠π2,即两组患病率不同。

2)确定检验水准 α=0.05。

3)计算χ2值 ①先计算理论数img60为R行C列格子的理论数,nR为与理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。T11为:T11img61,其余类推。四格表的行与列合计数是固定的,故也可由减法求得其他格子的理论数T。T12=100-20=80,T21=44-20=24,T22=120-24=96;②计算χ2值:把实际数A与算出的理论数T代入公式:

img62

4)确定P值 四格表自由度υ=(2-1)(2-1)=1,查χ2界值表,得χ20.051=3.84,本例χ2=4.13>3.84,故P<0.05。

5)做出统计推断 按α=0.05的检验水准,拒绝H0,接受H1,差别有统计学意义,即认为吸烟者与不吸烟者慢性支气管炎患病率不同,吸烟容易导致慢性支气管炎的发生。

(2)四格表专用公式计算法 当总例数n≥40且所有格子的T(理论数)≥5时,用四格表专用公式:

img63

式中:a、b、c、d为四个格子的实际数,n=a+b+c+d为总例数。

四格表专用公式可免去求理论数的麻烦,较为简便。但需要先计算出四格表中最小的T值,即最小行合计和最小列合计所对应的那一格子的理论数。只要最小的T≥5,其他理论数一定也大于5。即可采用四格表专用公式计算χ2值。本例中,最小的理论数为:

img64

则可以直接套用四格表专用公式计算χ2值:

img65

其余计算结果与前相同。

(3)校正公式计算法 当n≥40但有1≤T<5时,计算出的χ2值偏大,所得概率偏低,需用四格表校正公式:

img66

式中:各符号意义同前。具体计算步骤略。

(4)确切概率法 当n<40或有T<1时,用Fisher确切概率法。(可用统计分析软件计算)。

2.配对设计的χ2检验 应用于配对设计的计数资料。每一实验对象分别给予不同的处理,或同一实验对象先后给予不同处理。如判断两种检验方法、两种培养方法等的差别(例7-14)。公式:

img67

当b+c<40时,需要使用下面的校正公式:

img68

【例7-14】 有56例血液培养标本,将每份标本分别接种在甲乙两种培养基上,得到表7-6的结果。问两种培养基培养效果有无差别?

表7-6 甲乙两种培养基的培养结果

img69

分析:从表中资料可见,56份标本每份分别接种在甲乙两种培养基上,结果有四种情况:在两种培养基上均生长(a),在两种培养基上均不生长(d),在甲培养基上生长而在乙培养基上不生长(b),在乙培养基上生长而在甲培养基上不生长(c)。我们比较的目的是判断两种培养基的培养效果有无差异,a和b两种结果相同,对差异比较无意义,故不予考虑。只需判断结果不同的b和c有无差别即可。检验步骤如下。

(1)建立检验假设

H0:甲乙两种培养基的培养结果相同,即总体b=c。

H1:甲乙两种培养基的培养结果不同,即总体b≠c。

(2)确定检验水准 α=0.05。

(3)计算χ2值 本例b+c<40,用校正公式计算χ2值。

img70

(4)确定P值 本例υ=(2-1)(2-1)=1,查χ2界值表,得χ20.05,1=3.84,本例χ2=11.25>3.84,故P<0.05。

(5)做出统计推断 按α=0.05的检验水准,拒绝H0,接受H1,差别有统计学意义,认为甲乙两种培养基的培养效果不同,甲培养基阳性率较高。

3.行×列表χ2检验 当研究的事物分类较多,表的行数或列数超过2时,称为行×列表。用于多个样本率的比较、两个或多个样本构成比的比较。其χ2值可用χ2值基本公式求出,亦可用行×列表专用公式求出(例7-15)。专用公式:

img71

式中:n为总例数,A为每个格子的实际频数,nR为与A同行的合计数,nc为与A同列的合计数。

【例7-15】 某护士用三种方法缓解孕妇焦虑症254例,观察结果如表7-7,问三种方法的有效率有无差别?

表7-7 三种方法缓解孕妇焦虑症有效率比较

img72

分析:本例中要分析的变量是计数资料,表的行数超过了2,可采用行×列表χ2检验。步骤如下。

(1)建立检验假设

H0:即三种方法的有效率相等。

H1:即三种方法的有效率不等或不全相等。

(2)确定检验水准 α=0.05。

(3)计算χ2值:将各数值代入公式

img73

(4)确定P值 本例υ=(3-1)×(2-1)=2,查χ2界值表,得χ2005.2=5.99,本例χ2=9.19>5.99,故P<0.05。

(5)做出统计推断 按α=0.05水准,拒绝H0,接受H1,差异有统计学意义。可认为三种方法缓解孕妇焦虑的有效率不等或不全等。

行×列表资料χ2检验时需注意:①当各格子的T≥1,且1≤T<5的格子数不超过格子总数的1/5时,才能采用此种检验方法。如果有1/5以上格子的理论数小于5,或有一个格子的理论数小于1,其结论是不可靠的。可采用三种方法解决这一问题:增加样本含量以增大理论频数、删去太小理论频数所在行或列、将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论数增大。因以上两种方法常会损失信息,损害样本的随机性,故不宜常用;②多个样本率(或构成比)比较的χ2检验结论为拒绝H0,接受H1,只能认为各总体率(或构成比)之间总的来说有差别,但不能认为它们彼此之间都有差别。如果想说明某两组间是否有差别,则需要进行两两比较。

4.计数资料的关联性分析 当两个变量为计数资料时,此时可采用关联性分析。(详见有关统计学书)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈