稳定性信度

时间：2023-02-27 理论教育版权反馈

【摘要】：我们要研究的第一种信度为稳定性信度。这就是稳定性信度的含义，即随着时间的推移测验结果的一致程度。（实际上，因为教育测量专家一般会交替使用稳定性信度和再测信度的概念。对吉尔而言，这一分类具有一致性，因此教师对吉尔无需补习的决定同样具有一致性。当然，意识到这一点就会在一定程度上降低教师们对于分数能反映学生实际成就水平的过度迷信。

我们要研究的第一种信度为稳定性信度（stability reliability）。当提起信度等同于一致性的观点时，人们就会联想到这一概念。稳定性作为信度的一种形式，主要是关注随着时间的推移测验结果的一致性程度。即使测验是在不同的时间、场景中进行，我们仍期望对学生进行的测验的结果大体相同。例如，假设在星期二您的学生们参加了期中考试，但就在当天下午，有一个蒙面的小偷抢走了您装有学生试卷的公文包，小偷跳上了路边一辆待发的装甲车，逃到其他州或外国去了。第二天，您向学生们说明了昨天发生的事情，并要求学生再进行一次考试。由于在这期间没有重大干扰事件发生，比如您没有对试卷中出现的试题进行指导，所以您可以预期学生两次测验的成绩非常相似。这就是稳定性信度的含义，即随着时间的推移测验结果的一致程度。如果星期三的考试成绩与星期二的成绩没有多大的一致性，那么，我们就判定这次期中考试的稳定性信度较低。

为了考查评价结果随时间推移的稳定性程度，我们通常在同一场景中进行测验。在第一次测试后，大约隔一周或两周，我们会用同样的工具重新进行测验。因此，稳定性信度通常也称为再测信度（test-retest reliability）。（实际上，因为教育测量专家一般会交替使用稳定性信度和再测信度的概念。在此，您也可以随意使用两者中您喜欢的一种。）然而，重要的是教师必须保证在两次测量中间不会发生可能改变学生成绩的重大事件。举例来说，假设您想测量学生所掌握的第二次世界大战的知识。在两次测验中间，电视台播放了一部关于第二次世界大战的纪录片，而且具有较高的收视率。那么，在重测中那些观看过纪录片的学生的成绩就有可能高于第一次测试的成绩，因为他们在观看纪录片时接受了与测试有关的信息。因此，为了准确地解释前后测的结果，务必保证在两次测量之间不会发生对测验结果有较大影响的事件。

通常，求一致性信度的方法是计算两次测验（前测和后测）成绩之间的相关，所得的相关系数（correlation coefficient）反映的就是两次测验成绩的一致程度。如果您已学过统计学，那么您一定了解相关系数；如果您没有学过统计学，我们将予以简单的介绍。我们可以把相关系数看作一种数字指标（范围在+1.0～-1.0），该指标反映了个体在两个测验中所得分数的相关程度。相关系数（用r表示）接近1.0表示一种强相关；相关系数接近0代表弱相关。因此，如果两次测验之间的相关系数r为0.84，这就意味着学生在两次测验中的成绩非常相近。如果再测信度的相关系数r仅为0.23，则意味着两次测验的成绩相差很大。相关系数很高并不一定意味着学生在两次测试中的成绩就完全相同，而是说学生在前测中的相对（这里的相对性是指相对其他学生的成绩）成绩与学生在再测中的相对成绩有较大的相似性。

执教之初，韦恩·旺（Wayne Wong）在内陆城市的一所小学教五年级，班上有28名学生。韦恩认为频繁的测验能够激励学生的学习，因此他每周至少搞一次突击性的测验。诚然，大约一个月后，学生对这种突击测验已经见惯不怪了。韦恩利用学生测验的分数，计算学生们的“六周成绩”。

哈沃森（Helverson）夫人是该校的校长，她听过韦恩的几次课，她认为让这位新教师得到充足的指导是她义不容辞的责任。

哈沃森夫人最近在当地的一个州立大学的分校修完了研究生课程。作为研究生课程的一部分，哈沃森夫人修了“教育测量”这门课，她的成绩是A。大学的教授告诉她“信度是好测验的一个至关重要的因素”，因此，哈沃森夫人就向韦恩老师施加压力，要求他计算每次测验的信度值。但是，韦恩一直没有接受这一建议，因为他觉得计算信度值会浪费很多时间。他认为，如果最终不得不屈从的话，那么只能减少测验的次数。而韦恩老师深信测验能够激励学生，所以他根本不这样做。然而，听了韦恩老师的想法，哈沃森夫人也不愿妥协。

➡ 如果您是韦恩先生，并且您也面临这样的问题，您会如何决定呢？

计算稳定性系数的第二种方法就是求两次测验间分数所处类别没有变动的人数的百分比，这种求稳定性系数的方法被称为分类一致性（classification consistency）。这种分类一致性的方法可用于决定哪些学生可以不必再学习某个知识点的情况。

例如，当教师要决定哪些学生可以不用补习X知识点时，也就是说，如果教师规定不必补习X知识点的最低标准定为80％的正确率，那么，据此标准教师可以将学生划分为需要补习和不需要补习两类，教师只需要计算出两次测量中类别不变的人数百分比就可以得到分类一致性的稳定性系数。这一方法并不关注学生获得的具体分数值，而是关注两次被归为同一类别人数的比例。因此，如果吉尔（Jill）在第一次测验中得到了84％的正确率，第二次测验中得到了99％的正确率，那么吉尔可以不用补习X知识点了，因为两次测验中她都超过了80％的正确率。对吉尔而言，这一分类具有一致性，因此教师对吉尔无需补习的决定同样具有一致性。然而，如果哈里·哈维（Harry Harvey）第一次测验的正确率为65％，第二次测验的正确率为82％。对于两次测验，不同的分类将导致教师对哈里·哈维是否需要补习X知识点作出不同的决定。要更好地确定测验分类一致性的比例，您应该进行简单地计算，具体方法可参照表2.2。

表2.2　分类一致百分比的计算方法