实验结果变量的测量

时间：2023-03-01 理论教育版权反馈

【摘要】：由于本标准适用于实验研究，所用工具测量的结果变量应具有高可靠性和有效性。在二分法结果的实验研究中，各组的人达到是或否的结果所占的比例确定并公布。研究报告的结果当平均水平的结果变量的一项研究是测量间隔一级规模，取得的成绩是每一位病人，并为实验组提供计算方法。t检验时使用的结果变量是衡量使用间隔一级规模，它不能用来当结果是二分变量或分类变量。t检验结果产生，其中包括一定程度的意义，通常称为P值。

正如前几章所述，一个良好的定量研究重要的标准是好的数据。由于本标准适用于实验研究，所用工具测量的结果变量应具有高可靠性和有效性。这就要求，即使一种手段或措施在早期研究中是可靠和有效的，研究人员也应采取一些步骤，以在当前的应用程序中评价其可靠性和有效性（Burns　＆Grove，2005，pp.374，377；Conn，2007）。

检查有效性是尤其重要的，特别是对一项人口的研究，不像那些在以往报道的有效性文书一样总是成立。总之，可靠性和有效性的措施是没有一劳永逸建立的，相反，它的可靠性和有效性是每个研究都需要建立的。

（一）了解研究结果

大多数两个组的实验研究，研究人员的目标是确定是否一个干预比其他干预更有效，或者判断是否实验的干预比没有干预更有效。有效性是指作用或影响的结果变量，更有效是作用或影响的结果变量到一个更大程度。

有效性的思考有两种方法，即从临床角度思考和从统计角度思考。在这两个观点的中心是一种比较每个干预的结果变量有效的数额。从临床角度看，问题的底线是“两组不同的结果差异是否大到足以在临床上有意义？”从统计角度的问题底线是“发现的区别是一个真正的差别或随机的差异？”当阅读干预研究的报告时，更多的人关注获得结果的统计分析。研究者建议第一次开始看结果从临床角度看，然后开始审议统计结果的含义。

（二）临床视角

一般而言，实验研究结果总会以以下两种方式之一进行报道：一组取得了好得多的临床疗效，甚至成为里程碑；或者是两组的结果差异性很小。分数数值指的是通过任何形式测量得到的数值。

理解研究成果的临床意义，对两种不同类型的成果，需要不同的分析策略。

在一些护理研究和许多医学研究中，结果报告的部分在处理组谁达到了一定的成果或里程碑。比如说，不吸烟1年。当成果或里程碑报道为“是”或“否”的结果，这是所谓的二分的结果。其他例子二分法变量有：①重要，不重要；②自我护理能力增加或不增加；③获得或不获得在无帮助的情况下步行50步的能力；④生存或死亡。

在二分法结果的实验研究中，各组的人达到是或否的结果所占的比例确定并公布。这两个比例的差异，是所谓的绝对增加受益（ABI），这是测量治疗效果的几项措施之一，用来描绘两个治疗的相对影响。另一种是需要治疗数（NNT）。

对需要干预的人数提供的另一项考虑结果。这是将得到更有效的治疗方法的人，而不是较少的治疗方法。在假设的研究中，更多的人来实现的有效结果是：一个人超过限定的数目，将已经实现了有效成果。这也就是说，每8个孩子进入演习计划，而不是仅仅得到重视，另外一个孩子将实现运动水平在所有8个孩子中将获得身体活动所产生的效果。这提供了一个实际意义上运动计划产生获益的多少，这是相当可观的。请注意，NNT是很容易计算出的；它是与ABI相反；是：1／ABI四舍五入至整数，我们不把0.1作为一个人。治疗措施的行使程序见表7-6。

表7-6　反映治疗效果的方法

pagenumber_ebook=125,pagenumber_book=125

NNT在考虑是否实施了类似的计划中是很有用的，因为它从计划可能实现的具体利益出发。该NNT是有用的，原因有两个。首先，它提供的临床影响会有多少人可能成为受益者，从计划到没有计划。其次，可以评估受益范围内没有制定一项运动习惯的费用计划、风险的运动和长期的风险。研究报告的结果当平均水平的结果变量的一项研究是测量间隔一级规模，取得的成绩是每一位病人，并为实验组提供计算方法。

（三）统计视角

1.P值和检验方法　结果变量是衡量一个区间的规模和水平的成果报告的手段，各组的统计分析提供了有用的资料在回答这个问题时，“不同的手段，这两个群体的真正差异或有机会的差异？”两组真正的差别是一个平均分数，一个足够强大的差异也可能发生在目标人群，而不仅仅是在研究样本。在两个样本造成机会的差异正常变化的结果（可以预料的测量结果）取自同一人口。为了减少机会差异，可以从一个列表中的110名健康28～34岁的足球运动员中选择两个随机样本（每组40名），一个样本的平均心率可能为68.1次／分，其他样品平均心率为67.7次／分，这将被视为正常的变异或机会的差异，而不是一个真正的两组间差异。

在实验研究中，这两个群体是不同的待遇，因此，治疗效果预计：A治疗效果是目前比其他治疗会产生较大影响的结果。两者有较大的差异，则意味着这两个群体差异的可能性就越大，比其他真正的差异更有效。此外，如果对整个样本进行了研究，将会发现两组有较大差异。

如果差异较大，其中最有可能的治疗真正的更有效的是比其他的好处可能会超过这个发现之一。如果手段上的差异是小的概率很高，它只是偶然变异，这使它不可能使实验对象受益。然而，明确的答案的差异是否是一个真正的差别或有机会不同的是所提供的统计推断，如t检验。

t检验时使用的结果变量是衡量使用间隔一级规模，它不能用来当结果是二分变量或分类变量。t检验分析的大小之间的差别手段两组同时考虑到样本大小和多少的分数分布在可能范围的分数。t检验结果产生，其中包括一定程度的意义，通常称为P值。

虽然对P值进行了讨论，它们需要在什么背景下进行考虑，他们告诉我们的差异，平均分数两组的实验研究。在这个背景下，P值显示的概率的差异中找到，是指两个治疗组仅仅是一个机会发生。比方说，一项研究试验的影响，两种不同的缓解婴儿在静脉穿刺疼痛（方法A和B法）的方法；复测量30秒后，针头插入使用规模值范围为1～10（1，目前几乎没有任何疼痛；10为大量疼痛）。A组（42例）的平均得分为3.6和B组（n＝40）平均得分为平均4.0。如果t试验运行，其结果是P＝0.02。

不同的手段与低P值被认为是具有统计学意义的，也就是说它是一个真正的差异，即可能存在于研究对象中的。相反，高P值是指一个无显著意义的调查，这意味着最有可能是一个机会差异。

在研究报告中，统计报告的描述是通过不同的方式。绝对的差异意味着两个群体可能是也可能不是直接提供，但它可以很容易地计算减去平均一组。该变量可以或不可以报道，但t值本身不是很重要的临床数据。P值几乎永远需要在文字或在表格中提供。

重温有关统计学意义的问题，如果统计结果是显著（P＜0.05），研究人员得出结论，通常的原因，不同的是由于这一事实，即一组收到了更有效的干预而其他组没有，而且影响很可能纳入标准。这一结论的理由是所有其他因素也可能造成差异控制在某种方式（即使在是新设计的研究）。如果计算的P＞0.05，重新搜索得出这样的结论之间的差异是指仅仅是偶然变异，效果测试干预的比较干预是如此之小，它不可能是一个真正的纳入标准。他们得出结论，因为有很大的概率找到它们之间的差别仅仅是预期的变化从一个样品到另一个。这一结论是有道理的研究以及设计和样本大小是足够大的检测作用。

2.临床意义和统计意义的区别联系　在分别从研究成果的临床视角和统计视角作出了说明后，需要指出的是，统计的意义和临床意义不一定等同，而是它们的既有区别又有联系。

（1）当P≤0.05时，习惯上称作“差异有显著性”，它不等于临床意义很大，当P≤0.01时称“差异极显著”不等于临床意义极大。后者与前者比较，只代表后者更有理由认为两总体有差别，并不说明差别大小。

（2）处理组结果间的差异可以即有统计意义又有临床意义，这常见于两组间差异足够大。大是相对研究的性质和规模而言的。

（3）处理组间的差异可以既没有临床意义也没有统计意义。这可能是因为两组间的差异确实非常小。

（4）处理组间差异可以没有统计意义，但是有临床意义。因此，临床人员看到差异会说：“从临床角度来说这样大的差异是有意义的，这项敢于需要进行更大样本的研究。”小样本的护理研究是很常见的（Pout、Sherman，1990），这就使得你会遇到一些干预措施没有统计意义但是有临床应用前景。

（5）两组之间的区别是指先存在统计学意义，但没有临床意义，也就是从实际的临床角度来看，这是微不足道的或不重要的。有统计意义但是没临床意义的结果通常发生在超大样本的研究中。

为了说明在这一章中已提到的一些要点，一个假设的随机研究比较一种新的减肥计划的程序（表7-7）。

表7-7　体重下降例子

pagenumber_ebook=127,pagenumber_book=127