经典测量理论包括的主要内容

时间：2022-10-31 理论教育版权反馈

【摘要】：另外，经典测试理论对于各种测验的编制、考分的转换与等值等均有一套较为完整的方法。对于一般的常模参照测验而言，其目的主要在于测量个体差异。估计测量一致性程度的指标，称为信度。内容效度是指题目对欲测的内容或行为取样的适当程度。效标关联效度就是考察测验分数与效标的关系。效标关联效度通常可以通过统计分析而得出一个数量指标，该指标是一个测验与作为准则的另一个

10.2.1　经典测量理论

经典测量理论（Classical Test Theory，CTT）是从19世纪初发展起来并在20世纪50年代逐步完善的教育测量理论，它的基本思想是：对某个学生进行测验所得分数X可看作是代表该生实际知识或能力水平的真实分数T和测验误差分数E的线性组合，即：X＝T＋E。分析单个题目时有难度、区分度、迷惑效力的计算公式等。另外，经典测试理论对于各种测验的编制、考分的转换与等值等均有一套较为完整的方法。

1.测验题目的统计分析技术

（1）题目难度。难度是指题目的难易程度，它是题目对学生知识和能力水平的适合程度的指标。

难度的计算：对任何试题，其原始回答数据由答题者对问题的正确作答、错误作答及未作答的试题数构成。根据这一信息可以立即计算出正确作答题数的比例或百分比。这个统计量称为题目难度（item difficulty）。也就是说，难度的指标通常以通过率来表示，即以答对或通过该题的人数比例来表示。当题目的分数是二分变量（即答对为1，答错为0）时：

式中：P为题目难度值；R为答对或通过该题的人数；N为全体人数。

当题目的分数是多分值时，难度是全体被试在该题上的平均数与该题满分的比例：

式中：P为题目难度值；

为全体被试平均得分；X_max是题目满分。

测验题目难度水平的确定：测验题目难度水平的适当与否，取决于测验的目的、性质和题目的形成。对于一般的常模参照测验而言，其目的主要在于测量个体差异。当P值接近于0或接近于1时，即所有被试在该题上全部答对或全部答错时，该题目便无法提供个体差异的任何信息。而只有当P值接近于0.50时，题目才能把被试做最大程度的区分。但在实际工作中，若每一道题目的难度值均为0.50，那么此测验很可能只能区分出好与差两种极端被试的差异，却不能对各种被试做更精确地区分。因此，一般只要求测验题目的平均难度为0.50，而各题难度可在0.50±0.20之间。当测验用于选拔录用人员，题目的难度值应控制在录取率左右。而在标准参照测验中，可以不必过多地考虑难度，只要施测者认为重要的内容就可以采用。

测验难度水平的确定：整个测验的难度水平取决于组成测验的题目难度。通过测验分数的分布，可以对测验难度作综合性检验。由于人的心理特征多呈正态分布，因此当测验目的在于测量个体差异时，若被试样本具有代表性，则其结果应呈正态分布。当分数分布不是正态而是明显偏态时，可有两种情形（图10－1）：正偏态和负偏态。前者被试分数大多集中于低端，说明测验对于所测被试团体而言难度偏高，应增加一定数量的易题；后者则相反，被试分数集中于高端，说明测验对于所测被试团体而言难度偏低，应增加一定数量的难题。

图10－1　正偏态与负偏态

（2）题目区分度。题目区分度是指测验题目对学业水平不同的考生的区分程度或鉴别能力。如果一道题，学业水平、实际能力都较高的考生都答对，学业水平、实际能力都较低的考生都答错，则可认为该题目有好的区分度。

区分度分析主要以效标为依据，考察被试在每个题目上的反应与其在效标上的表现之间的相关程度。所谓效标是指衡量测验或题目有效性的外在标准。题目分析时一般以测验总分为效标。

区分度的计算方法很多，根据测验及题目的不同计分方式，可采用不同的方法。计算题目区分度的一个简便方法是比较两个极端被试组（高分组和低分组）在该题上的通过率的差异，这一差异亦称鉴别指数，公式如下：

D＝P_H－P_L　　　　　　（10－3）

式中：D——鉴别指数；

P_H——高分组通过率；

P_L——低分组通过率。D值越高，题目越是有效。

美国测量学家伊贝尔（R.L.Ebel）根据自己编制测验的经验提出了从鉴别指数上评价试题的标准如表10－1所示。

表10－1　题目区分度评价标准

这一方法只利用了一部分数据资料，浪费了很多信息，所以统计结果比起用全部资料准确性差了一些。

2.测验的质量评估

对测验的质量评估，主要是分析测验的信度与效度。

（1）测验的信度。即测验的可靠性或稳定性。若某一测验对同一对象施测若干次，而每一次的结果均不一致且差异显著，那么该测验的可信度显然值得怀疑。当一个测验多次测量的结果一致时，它就被认为是可靠的。估计测量一致性程度的指标，称为信度。如果在大体相同的条件下，几次测验都得到了大体相同的分数，那么这个测验的信度是较高的；反之，信度就比较低。

信度反映了测验结果受随机误差影响的程度。根据测验分数的不同误差来源可将信度分为再测信度、复本信度、分半信度、同质性信度、评分者信度等，不同的信度估计方法也不同。最常用的是分半信度。

所谓分半信度就是将测验施测于某被试群体，然后将测验分半，再求被试在每一半测验上的分数的一致性程度。分半法的关键在于如何将测验分半。应用最广的是将测验分成若干内容块，再将各内容块的题目奇偶分半，所有的奇数题和所有的偶数题各组成一个分测验。然后计算两半测验得分的皮尔逊相关系数（10－4），并用斯皮尔曼——布朗公式（Spearman－Brown）（10－5）进行系数较正。

（2）测验的效度。测验的效度是指测验的准确性，即一个测验实际能测出其所要测量的特性的程度。例如，某次高级语言程序设计测验，是要检查学生对程序设计语言语法的掌握情况，但测验所得的结果是否就是学生对该知识点的掌握情况呢？如果在测验中有大量题目是考算法的，那么本次测验的效度就不高。效度可分为内容效度、效标关联效度和构想效度。

内容效度是指题目对欲测的内容或行为取样的适当程度。也就是测验内容与测验目标的一致性程度。确定内容效度最常用的方法是由专家对测验题目所涉及的内容范围进行符合性判断。这是一种定性分析的方法。

衡量测验的一个重要方法是看根据测验所做出的预测是否能被证实，如果一个测验的预测与将来实际发生的事情非常接近，那么它就是一个好的测验。被预测的行为是测验是否有效的标准，简称效标。效标关联效度就是考察测验分数与效标的关系。例如，若某高考模拟考试的结果与学生的实际高考分数十分接近，则说明该测验效标关联效度较高，是一个好测验。效标关联效度通常可以通过统计分析而得出一个数量指标，该指标是一个测验与作为准则的另一个测验、评定或工作成绩等之间的相关系数，以此来反映该测验的有效性程度。

构想效标是指测验所提供的数据同理念假设的符合程度。例如，假设“智力与学习成绩有着密切关系”，那么就可以据此编制测验，并对实施测验所得的结果进行分析，如果智力真的与学业成就有较高的相关，那就说明假设可能是正确的。

3.经典理论的不足

经过近百年的发展，CTT建立了一系列以真分数理论为基础的较完善的测验理论和对题目与测验进行统计和分析的方法，是一种被广泛应用的测验理论。但是CTT也有它的局限性：首先，测验参数（如难度和区分度）依赖于特定的被试样本；其次，测验结果的可比性差，只有当所有被试都实施相同的测验题目或其平行复本时测验结果才是可比的。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈