医学影像学统计设计

时间：2024-07-05 百科知识版权反馈

【摘要】：不过单盲法不能避免研究人员主观因素所产生的偏倚,单盲获得结论的客观性和可信度低于双盲法。在临床研究中当反映疗效和安全性的主要指标是主观、定性的,或者虽是定量指标,但容易受心理、精神因素影响时,常使用双盲法。此外,在执行双盲法时,如果病情发生变化,不能准确判断并及时处理。其职责是监督盲法执行,保证结果的可靠性,保证受试对象的安全,分发应急信件,保管盲底,试验终末揭盲等。

统计学作为科学研究的重要一环,在研究设计时就应该考虑,而不应是一切结束之后的结果“修饰”。良好完善的研究设计可以节约大量的人力、物力、财力和时间,保证实验的科学性、可靠性和诚信度,是正确运用统计方法的前提。如果没有科学的设计、良好的数据质量,那么无论用什么方法和软件都无法获得真实的结果,甚至得出错误的结论。

例如在20世纪30～40年代,金的化合物普遍用于治疗结核病,视作特效药,为此发表过数以百计的文章,并作为定论写入教科书。40年代末,随机对照临床试验,否定了这种结论,并用几个月的时间肯定了链霉素、对氨柳酸、异烟肼的疗效。没有科学的设计和正确的统计方法是其得出错误结论的重要原因。

一、科研设计的基本原则

医学科研设计必须要遵循一定的原则,最普遍的有随机化原则、对照原则、均衡原则、盲法原则和重复原则,现就各原则的内容及意义介绍如下。

(一)随机化原则

随机化原则是指从总体中抽取个体或样本时,每个个体或样本都有同等被抽取的机会,是保证各组间均衡可比的重要手段。随机不同于通常意义的“随意”和“随便”,例如一个笼子里有10只小老鼠,要求均分到对照和试验组中去,如果研究者规定“短尾巴老鼠分到对照组、长尾巴老鼠分到实验组”就属于“随意”分组,包含有主观选择;如果研究者规定“闭上眼睛捉老鼠,先捉住的作为对照组,后捉住的作为实验组”则属于“随便”分组,包含有客观选择。因此随机抽样,可以理解为既没有主观选择、也没有客观选择的一种抽样方法。

在一般的实验研究或调查研究中,随机化原则具体体现在如下几方面:

1.抽样随机　每一个符合条件的实验对象参加实验的机会相同。

2.分组随机　每个实验对象分到处理组和对照组的机会相同,以保证各处理组间实验对象尽可能均衡一致,以提高各组间的可比性。

3.实验顺序随机　每个实验对象接收处理先后的机会相同,以消除不平衡的实验顺序所产生的偏差。

有多种随机化方法可以实现以上的随机化要求,现将几种最常用的随机化方法介绍如下:

1.抽签法　例如要把12个患者分为两组,先将患者编号1、2、3……12,同时制作数字为1～12的标签,标签充分混匀后,按预先规定抽取6个签号,将患者对号入座分到第1组,余下的6个标签号的患者分第2组。

2.随机数字表法　随机数字表是根据随机抽样的原理编制而成的,通过其可以方便地进行随机分配和随机抽样。

3.Excel编程　当样本量较大无法使用抽签法或无法获得随机数字表时,可以采用excel编程来进行随机化。例如将100个病人分为实验组和对照组,先将病人编号1～100号,将姓名作为第一列,编号作为第二列,然后在第三列中输入=RAND()*99+1生成一列1～100的随机整数,并将单数分为实验组,双数分为对照组。

(二)对照原则

对照就是对受试对象不施加处理因素或施加处理因素前的一种处理状态,没有比较就没有鉴别,任何事物间的差异都是通过比较而显示出来的,比较的基准就是对照,设置对照是为了甄别处理因素与非处理因素效应,排除非处理因素干扰,充分暴露处理因素的效应,更好地评价和鉴别实验结果的科学性、真实性,避免偏倚而产生错误的结论。

试验中各因素产生的效应公式表达如下:

式中:T为处理因素,E为处理因素效应,S为非处理因素,e为非处理因素效应。

两个实验组相互比较的原理:

如果S1=S2,e1=e2

那么

可见由于设立了对照,排除了非处理因素及其效应的干扰,充分的暴露了试验因素的效应。

设立对照时,不能盲目操作,需要符合一定的要求,最基本的是对等、同步、专设。

1.对等　除处理因素外,对照组要具备与实验组对等的非处理因素。

2.同步　对照组与实验组设立之后,在整个研究进程中始终处于同一空间和同一时间。

3.专设　任何一个对照组都是为相应的实验组专门设立的。不得借用文献上记载或以往的结果或其他研究资料作为本研究对照。

对照的形式多种多样,现将几种最主要的分述如下:

1.同期随机对照　相同时间、地点选择研究对象,以随机分配方式分组,其可比性强,避免了选择性偏倚,结果更具说服力。

2.自身对照　对照与实验在同一受试对象进行。

3.历史性对照　将新的干预性措施的结果与过去的研究比较,即将研究者以往的研究结果或他人的研究结果与本次研究结果作对照。

4.非随机同期对照　研究对象是同时间、同地点,用非随机分配的方法分为实验组和对照组,分组的方法不是随机的。

5.配对对照　将实验组的观察对象按照配对因素与对照组相配对。

6.典型对照　与已知疗效的典型处理进行比较。

7.空白对照　对照组不施加任何处理因素。

8.实验对照(效应特异性对照)　采用与实验组条件一致的对照措施。

(三)均衡原则

均衡即实验组和对照组或各实验组之间,除了观察的受试因素外,其他一切条件应尽可能相同或一致。如动物的种属、品系、窝别、年龄、性别、体重、健康状况、生理条件、饲养环境等要保持一致。如果受试对象是病人,则要求病人的病种、病期、病型、病程、年龄、性别、生活、社会、心理等因素保持均衡一致。均衡的意义在于更好地避免偏性,减少误差,提高实验的精确性。

实验时进行均衡检查很重要,通常实验时如果先按主要影响因素分层,然后在层内随机抽样,这样组间均衡性较好。但若样本分配并不是采用分层随机,而是使用完全随机的方法,在小样本实验中则可能出现严重不平衡状态,为弥补这一缺陷,应在实验样本数达到预定数的80%～90%时进行均衡性检查,当发现不平衡指数(影响因素差数绝对值之和,∑di)较大时,随后的样本分配应以如何使不平衡指数减小为原则。

例1　比较CT与MRI对的胰腺癌诊断效果,预定观察20例,每组10例,按完全随机已收治17例,结果如表5-1。若性别、年龄、病情与病程是其主要影响因素,则按此进行均衡性检查。

表5-1　胰腺癌病人CT与MRI诊断结果

pagenumber_ebook=252,pagenumber_book=252

计算得出不平衡指数∑di=12较大,故随后继续进来的病例应当以使∑di减少为原则。如新来一位符合受试条件的本病患者系男性青年,病情较重,确诊已达9个月。若将此患者分至MRI组,则∑di增至16,若将其分至CT组,则∑di减至8,故应将此患者分至CT组。

(四)盲法原则

盲法是指按试验方案的规定,不让参与研究的受试者和(或)观察者、其他有关工作人员(部分设计者)知道病人所接受的是何种处理(试验药或对照药),从而避免他们对试验结果的人为干扰和心理因素的影响。实验设计中常用的有单盲法、双盲法和三盲法。

1.单盲法　是指在研究中,受试对象不知道接受什么处理。用于单盲的对照药物既可是安慰剂,也可以是有效药物或标准治疗。单盲法可以避免研究对象的主观因素所致的偏差,并且实施起来较为容易,在研究对象出现任何变化时,担任观察任务的研究人员容易判断其原因,并决定是否终止试验或改变方案,以保证处理因素使用的安全性。不过单盲法不能避免研究人员主观因素所产生的偏倚,单盲获得结论的客观性和可信度低于双盲法。

2.双盲法　是指在研究中,受试者和承担观察任务的研究人员均不知道每个受试对象的分组和接受处理的情况。在临床研究中当反映疗效和安全性的主要指标是主观、定性的,或者虽是定量指标,但容易受心理、精神因素影响时,常使用双盲法。

双盲法可避免受试对象的主观偏差和研究者的人为偏差,但其较为复杂,实际执行起来困难较大,在研究过程中,也容易由于种种原因容易造成盲底泄露,称为破盲。此外,在执行双盲法时,如果病情发生变化,不能准确判断并及时处理。所以,在施行双盲法时,需要注意以下几个问题。

(1)严格随机分组,认真、客观填写病例报告表。

(2)实验组与对照组所用的药物外观、形状、剂型等必须高度一致。

(3)要有一套完善的执行盲法编码制度,受试对象的所有记录、请求单、回报单等全采用代号制。

(4)每个盲法试验应指定一位第三者作为统筹负责和监督整个研究工作的监视员。其职责是监督盲法执行,保证结果的可靠性,保证受试对象的安全,分发应急信件,保管盲底,试验终末揭盲等。

(5)设有应急信件和紧急情况个别病例揭盲规定。临床试验必须符合科学和道德伦理原则:为防止试验中出现紧急情况贻误病人治疗,应为每一个编盲号设置一个应急信件(内容为病例用药编号、药名),以便在紧急情况下对个别病例揭盲抢救治疗。

(6)盲态核查。指最后一例受试者的最后一次观察完成后,数据管理员将病历报告表输入数据库,并经过复核、直到数据锁定,以及第一次揭盲间对数据的核查和评价等所做的工作。

3.三盲法　是双盲法的扩展,即受试对象、研究人员和资料分析人员均不知道受试对象的分组和管理情况。其在理论上可以减少资料分析上的偏差,但分析时减弱了对整个研究工作的全局了解,对研究的安全性要求较高,在执行时也较严密,难度较大。

(五)重复原则

重复有两层含意,一是指实验的样本量必须足够大,在相同实验条件下充分的重复,以避免实验结果的偶然性,突出表现其必然规律;二是指任何实验结果的可靠性经得起重复实验的考验,重复实验是检查实验结果可靠性的唯一方法,一个不可重复的研究是没有科学性的。

重复可以起到两方面的作用,一方面可以稳定标准差,获得实验误差估计值,另一方面可使均值接近真实值,实验组与对照组差异能够准确地显露出来,实验中重复原则主要体现在采用多个实验对象和合理的样本量上。

二、样本量估计

在临床试验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计。一般说来重复观测次数越多,抽样误差越小,观测结果的可信度越高。一定数量的重复还可起到部分抵消混杂因素影响的作用,增强组间的可比性。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias)。所以在实验设计中落实重复原则的一个重要问题就是如何科学合理确定样本含量。由于在各对比组例数相等时进行统计推断效能最高,因此,多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来估计。因此,科学地确定样本量是增加研究的可靠性,得到可信的研究结果重要保障。

影响样本量大小的因素主要有以下几个:

1.总体参数(d)　两个样本均数或两个率比较时,其总体均数或率的差值,d越大,说明差异越明显,需要的样本量越小。

2.实验误差　实验方法越准确,个体间差异越小,实验误差必然较小,越易达到统计等显著性,所需样本越小;否则,样本要大。

3.检验水准α　实验所需样本数与实验设计规定的检验水准成反比,检验水准α定得愈低,所需样本含量愈大,α=0.01所需样本数大于α=0.05所需样本数。

4.检验效能(1-β)　检验效能指当两总体确有差别时,按检验水准发现它们有显著差别的能力。检验效能由β(第二类错误的概率)大小所决定,当β=0.1,β=0.2时,相应的检验效能为0.8和0.9。检验效能越大,所需要的时间样本量也越大。

5.资料性质　在相同条件下,数值变量资料所需样本量少于分类变量,如果分类变量结果上相差悬殊,对照组全为阴性,实验组全为阳性,则少数样本也达到统计学的显著性。

6.实验结果的可能性　结果(存在A≥B或A≤B两种可能性)所需样本数多,向结果(只存在A≥B或A≤B一种可能性)所需样本数少。

7.实验设计的类型　完全随机实验设计所需样本多,配对设计随机区组实验设计所需样本较少,拉丁方实验设计所需样本更少,序贯实验设计所需样本数又可少30%～50%。

实际研究中,常用的样本量估计方法主要有粗估法、计算法和查表法。

1.粗估法　是根据相关准则、参照既往的研究得出样本量的一种方法,其操作简单,但精确性不如计算法。

动物实验时:大动物(犬、猫)5～15只/组;中等动物(兔、豚鼠)10～20只/组;小动物(大鼠、小鼠)15～30只/组。

临床研究一般难治愈的疾病:疗效显著时(如癌症)5～10例即可;急重病死亡率高的(如休克、心力衰竭、肾衰竭、呼吸衰竭)需30～50例;一般病和慢性病300～500例。

按WHO规定:血清流行病学调查需300～600例,一般流行病学调查和正常值调查则常需千例以上;恶性肿瘤的流行病学调查至少10万人;多因素分析时,样本含量数是研究因素数的5～10倍。

2.计算法

(1)与样本含量估计有关的几个统计学参数:在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计。

规定有专业意义的差值δ,即所比较的两总体参数值相差多大以上才有专业意义。δ是根据试验目的人为规定的,但必须有一定专业依据。习惯上把δ称为分辨力或区分度。δ值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大。

确定作统计推断时允许犯Ⅰ类错误(“弃真”的错误)的概率α,即当对比的双方总体参数值没有差到δ。但根据抽样观测结果错误地得出两者有差别的推断结论的可能性,α确定的越小,所需样本含量越大。在确定α时还要注意明确是单侧检验的α,还是双侧检验的α。在同样大小的α条件下;双侧检验要比单侧检验需要更大的样本含量。

提出所期望的检验效能power,用1-β表示。β为允许犯Ⅱ类错误(“取伪”的错误)的概率。检验效能就是推断结论不犯Ⅱ类错误的概率1-β称把握度。即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性。在科研设计中常把1-β定为0.90或0.80。一般来说1-β不宜低于0.75,否则可能出现非真实的阴性推断结论。

给出总体标准差σ或总体率π的估计值。它们分别反映计量数据和计数数据的变异程度。一般是根据前人经验或文献报道作出估计。如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率P分别作为σ和π的估计值。σ的估计值越大,π的估计值越接近0.5,所需样本含量越大。

在对以上统计学参数作出规定或估计的前提下,就可以根据不同的推断内容选用相应的公式计算出所需样本含量。由于在同样的要求和条件下完全随机设计(成组设计)所需样本含量最大,故一般都要按完全随机设计作出样本含量的估计。

(2)常用的估计样本含量的方法

①两样本均数比较时样本含量估计方法

A.两样本例数要求相等时可按下列公式估算每组需观察的例数n。

式中δ为要求的区分度,σ为总体标准差或其估计值s,α、β分别是对应于α和β的u值,可由t界值表,自由度υ=∞-行查出来,α有单侧、双侧之分,β只取单侧值。

例2　某医师研究一种降低高血脂患者胆固醇药物的临床疗效,以安慰剂作对照。事前规定试验组与对照组相比,平均多降低0.5　mmol/L以上,才有推广应用价值。而且由有关文献中查到高血脂患者胆固醇值的标准差为0.8　mmol/L,若要求犯Ⅰ类错误的概率不超过5%,犯Ⅱ类错误的概率不超过10%,且要两组例数相等则每组各需观察多少例?

本例δ=0.5　mmol/L,σ=0.8　mmol/L,α=0.05,β=0.10,1-β=0.90,查t界值表自由度为∞一行得单侧t　0.05=1.645,t　0.1=1.282,代入式5-4。

故要达到上述要求,两组至少各需观察44例。

B.两样本例数要求呈一定比例(n　2/n　1=c)时,可按下列公式求出n　1,再按比例求出n　2=c*n1。

例3　对例1资料如一切要求都维持不变,但要求试验组与对照组的例数呈2∶1比例(即C=2),问两组各需观察多少例?

n　1=[(1.645+1.282)×0.8/0.5]^2×(1+2)/2=33(例)(对照组所需例数)

两组共需观察99例多于两组例数相等时达到同样要求时两组所需观察的总例数2×44=88。

②配对设计计量资料样本含量(对子数)估计方法:配对设计包括异体配对、自身配对、自身前后配对及交叉设计的自身对照,均可按下列公式进行样本含量估计。β

式中δ、α、β的含义同前,σd为每对差值的总体标准差或其估计值sd。

例4　某医院采用自身前后配对设计方案研究某治疗矽肺药物能否有效地增加矽肺患者的尿矽排出量。事前规定服药后尿矽排出量平均增加35.6　mmol/L以上方能认为有效,根据预试验得到矽肺患者服药后尿矽排出量增加值的标准差sd=89.0　mmol/L,现在要求推断时犯Ⅰ类错误的概率控制在0.05以下(单侧),犯Ⅱ类错误的概率控制在0.1以下,问需观察多少例矽肺病人?

本例δ=35.6　mmol/L,sd=89.0　mmol/L,α=0.05,β=0.10。1-β=0.90,单侧t　0.05=1.645,t　0.1=1.282,代入式5-6得到。