内在一致性信度

时间：2023-02-27 理论教育版权反馈

【摘要】：与稳定性信度和复本信度相比，内在一致性信度的确是一种与众不同的信度类型。正是因为这一点，人们更倾向于频繁的使用内在一致性信度，而不是前两种信度。他在互联网上查到这四个分测验的内在一致性信度高达93％，这和测验技术手册中的说明是一样的。我们所使用的测验具有非常高的内在一致性信度。但是如果霍布斯重考一次或使用别的复本，那么这种内在一致性信度并不能揭示霍布斯的得分情况。

最后一种信度我们称之为内在一致性信度（internal consistency）。与稳定性信度和复本信度相比，内在一致性信度的确是一种与众不同的信度类型。内在一致性并不聚焦于学生在一次测验中成绩的一致性，确切地说，内在一致性主要处理的是教育测验的题目之间在功能上一致性的程度。

鉴于稳定性信度和复本信度需要进行两次测验，而内在一致性信度只需测量一次就可以计算出信度的大小。正是因为这一点，人们更倾向于频繁的使用内在一致性信度，而不是前两种信度。然而，您很快就会发现，内在一致性信度绝对不同于稳定性信度和复本信度。

内在一致性信度反映的是测验中题目功能的一致性程度——测验题的目的同质性。许多教育测验是用来测量单一变量的，例如学生的“阅读能力”、学生对“学校的态度”等。如果测验中的题目测的确实是同一变量，那么每一测验题的目的评价功能实际上应该是相同的，这些测验题目应针对同一变量，当然，学生对这些题目的反应应具有极大的相似性。例如，一项测量学生解决问题能力的测验中共有20个测验题目，那么具有娴熟的问题解决能力者差不多能答对20道题目，而那些解决问题能力较低的学生只能答对部分题目。测验题目的反应结果越同质，那么测验的内在一致性就越高。

计算内在一致性信度有多种不同的计算公式⁽¹⁾。每一种计算公式都能得出一个数字，用该数字来评价题目同质性程度。

对于能够简单地判定为“正确”或“错误”的题目，比如选择题，估计内在一致性信度最常用的方法就是库德—理查逊（Kuder-Richardson）公式（通常被称为K-R公式）。而对于含有可以记不同分值的题目，比如主观性题目，最常用的方法就是克隆巴赫（Cronbach's coefficient alpha）系数，它是以其创造者克隆巴赫（Lee J. Cronbach）的名字命名的系数。顺便说一句，如果您想以您的新发现和奇特的评价术语吓吓您的同事，那么您就可以用“二元记分题”（dichotomous items）称呼答案要么对要么错的题目（譬如判断题）；用“多元记分题”（polytomous items）称呼那些答案有多种得分情况的题目。如果您尝试在日常的闲谈中把这两个词汇加进去，肯定会引起同事的敬畏之情。

最近，学区举行了一次全国性标准成就测验。拉斐尔·霍布斯（Raphael Hobbs）是您班中最优秀的学生之一，下表是拉斐尔·霍布斯在各项测验上的百分位数成绩（通过与测验常模群体比较得出）。

拉斐尔·霍布斯的父亲是位退役的美国空军上校，他打电话要求针对霍布斯的测验成绩与您进行一次面谈。他在互联网上查到这四个分测验的内在一致性信度高达93％，这和测验技术手册中的说明是一样的。在面谈时，他表明了自己的困惑：为什么四个分测验的信度都很高，而霍布斯的社会研究课的成绩与其他三门课的成绩相差如此之远？霍布斯的父亲期望您对此作出解释。

➡ 如果我是您，下面是我对霍布斯上校的回答：

霍布斯上校，首先我很高兴您能抽出时间来研究我们在全校进行的测验，很少有家长愿意花时间做这样的事情。

我想先和您谈谈您在电话中提出的关于测验信度的问题。之后，我们再一起讨论霍布斯社会研究课成绩的问题。您已经通过互联网获得了许多信度方面的信息，您一定对我要谈论的内容有所了解了，但我还要进一步地解释一下。

评价信度是关于测量一致性的程度。但是，在研究测验的信度时，又有诸多不同的方法。正如您所指出的，霍布斯所接受的测验，提供的是内部一致性信度。这几个信度值告诉我们的是每一份测验的题目是否具有相同的功能，也就是说这些测验题目是否能够测量同一种能力。

我们所使用的测验具有非常高的内在一致性信度。但是如果霍布斯重考一次或使用别的复本，那么这种内在一致性信度并不能揭示霍布斯的得分情况。换句话说，也就是我们不知道霍布斯的成绩随着时间的推移是否稳定，或者进行不同的复本测验其成绩是否一致。

我们看到霍布斯社会研究课的成绩明显不同于其他科目。我曾查阅了霍布斯近几年的成绩，发现社会研究课的成绩和其他科目的成绩没有多大的差别。因此，这样看来。社会研究测验的可靠性确实值得怀疑。

但是，不管这份社会研究测验测量的是什么，可以肯定的是它所测的是较为同质的内容。然而，这并不意味着社会研究所测的内容就与霍布斯在学校社会研究课堂里所学到的知识是完全契合的。上校先生，我认为问题不在于测验没有信度，而在于我们所教的内容与社会研究测验的内容出现了脱节。

霍布斯先生，我建议您和我共同监视霍布斯在这一学期社会研究课中的表现，这样我们就能更清楚地知道问题出在哪了。

➡ 现在，您知道该和霍布斯上校说些什么了吗？

顺便说一点，在其他情况都相同的情况下，测验题目越多，测验的信度就越高。举例来说，如果您想测量学生的数学能力，那么100道题目的测验肯定比一道冗长的应用题更可靠。这就好比品尝的次数越多，就越清楚汤里有哪些调料一样。只品尝一次可能会愚弄您的味觉，品尝20次则对汤的成分有更精确的把握。简言之，在教育评价中，测验题目的数量越多，其信度一般也越高。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈