学生个体测验的解释

时间：2023-02-27 理论教育版权反馈

【摘要】：年级当量分数是从另一个角度对标准化测验分数作出的相对性解释。年级当量显示学生在基于年级和学习年限所编制的测验中的表现。一些测验编制者利用统计方法将标准化测验中的原始分转换成年级当量分数。然而，事实上许多教师和家长对年级当量分数所表达的含义理解有误。为了确定与特定原始分数相对应的年级当量分数，测验编制者通常对几个年级的学生实施相同的测验，并绘制反映每个年级原始分数递增的趋势线。

解释学生的测验分数常会用到两种最主要的方式，即绝对性的方式和相对性的方式。当我们绝对性地解释一个学生的测验分数时，我们从分数中得出哪些是这个学生会做的，哪些是他不会做的。例如，以一个学生数学运算能力测验的表现为基础，我们可以推断出这个学生掌握这种计算技能的程度。教师可能用到两分法进行解释，即掌握了测验技能或知识的学生与没有掌握的学生。掌握或没掌握的解释就是对一个学生测验分数的绝对性解释。从事课堂教学的教师在设计测验来评估一个学生是否掌握了某一特定学习单元的知识或技能时，通常会用到这种绝对性的解释。

当我们对一个学生的测验分数进行相对性解释时，就是从分数中推断出这个学生与现在参加这个测验的其他学生或是已经参加过这个测验的学生相比表现怎么样。例如，当我们说约翰尼（Johnny）的测验分数为“中上”或是“中下”，我们就正在作一个相对性的解释，因为我们是根据其他学生的平均分数来解释约翰尼的测验分数的。

前面提到过，这一章主要论述老师和家长应如何解释标准化测验的分数。由于几乎所有的标准化测验分数都要用到相对性解释，这一章所涉及的三个解释模式就都是相对性分数解释模式。绝大多数标准化测验，不管是成就测验还是能力倾向测验，都提供相对性解释。因此，老师就要非常熟悉相对性分数解释模式。

我们要涉及的第一种，也是最常用的一种解释模式是以百分位数（percentiles）为基础的。因为百分位数对大多数人来说容易理解，也就在描述标准化测验分数中用得最为频繁。

百分位数将一个学生的分数与一个常模群体中其他学生的分数作比较。百分位数显示在常模群体中，在某个学生之下的其他学生的百分比。例如，百分位数为60意味着这个学生比常模群体中60％的学生都表现得更好。

我们先花点时间来描述什么是常模群体。如上所述，一个百分位数将一个学生的分数与一个常模群体中的学生的分数作比较。这种比较基于已经参加过某一特定测验的个体组成的群体的表现。例如，在编制者公布一项新的标准化测验之前，他们会组织一场有很多学生参加的测验，而这些学生就成了这个测验的常模群体。通常，不同常模学生群体会集中在一起参加所有等级的测验以作百分位数解释。

图13.2描述了在全国性的标准化成就测验中，3000名学生分数的正态分布情况。记住，我们把这些学生叫作常模群体。曲线下方的区域代表了取得底线上某点分数的学生数。您会注意到对于一个典型的常模群体的表现来说，多数的学生分数中等，仅有很少的学生分数很高或是很低。

图13.2　一个典型的常模群体

事实上，如果测验分数在常模群体中的分布完全是正态分布，那么，正如您在图13.3中看到的，超过2/3的分数（曲线以下的区域表示）比较接近分布的中心，即从平均数上加或减去一个标准差的范围。

并不是所有的常模群体都是全国性的。有时，测验编制者会应地方学校领导的要求编制地方性常模。这些地方性常模可以覆盖全州，也可以仅限于学校所在区域。以地方性常模为基础对学生进行的比较有时候被认为比以全国性常模为基础的比较更有意义。

图13.3　常模群体分数的正态分布

在许多情况下，因为在某个特定区域的学生并不能代表这个国家学生的总体，所以地方性常模与全国性常模不同。如果地方性常模和全国性常模存在差异，那么学生的百分位数也会有所不同。一个学生的原始分，即正确回答题目的个数，就可能与以全国性常模为基础的第50个百分位数相当，而与以地方性常模为基础的第75个百分位数相当。这种情况在地方群体中的学生没有全国群体中的学生表现得好时就会发生。全国性的和地方性的常模为解释标准化测验结果提供截然不同的规则。所以当向学生家长报告测验分数时，应明确说明这个学生的百分位数是基于全国性的常模还是地方性的常模。

的确，有些常模群体比其他常模群体构建得更仔细。例如，某些全国性常模群体就比其他全国性常模群体更能体现全国人口的表现。由于群体中学生的性别、种族、地理区域及社会经济地位等的差异，常模群体的代表性总会有很大的差别。另外，许多标准化测验仅隔5至10年就会重新建立常模。确保生成百分位数的基础——常模信息具有代表性和现时性是很重要的。

下面我们讨论年级当量，通常也叫作年级当量分数（grade-equivalent scores）。年级当量分数是从另一个角度对标准化测验分数作出的相对性解释。年级当量显示学生在基于年级和学习年限所编制的测验中的表现。年级当量的目的就是要将标准化测验中的分数转换为能够反映学生年级进步的指数。从它代表了年级水平的连续范围来说，年级当量分数是不断发展的。

我们来看一下4.5这个年级当量分数：

年级当量分数

年级→4.5←学年月份

这个分数包括年级、一个小数及代表月份的数字。小数点左边的数字代表年级，在这个例子中即为四年级。小数点右边的数字代表学年的月份，在这个例子中即为该学年的第五个月。

一些测验编制者利用统计方法将标准化测验中的原始分转换成年级当量分数。这些年级当量分数经常出现在学生的分数报告中。年级当量分数最适用于阅读和数学等基本技能领域，在这些领域中，我们可以假定教师对某一学科教学重点的重视程度在不同年级是完全一致的。

年级当量分数的吸引力在于它们看起来对于老师和家长来说都容易理解。然而，事实上许多教师和家长对年级当量分数所表达的含义理解有误。要知道为什么会误解这些分数，我们有必要首先了解一下它们的来源。

为了确定与特定原始分数相对应的年级当量分数，测验编制者通常对几个年级的学生实施相同的测验，并绘制反映每个年级原始分数递增的趋势线。测验编制者从而通过这条趋势线的各点估计任何原始分数的年级当量。

让我们来解释一下这个重要的点。在图13.4中，您可以看到三个年级学生各自的分数。这项测验由三个不同年级，即四、五、六年级的学生参加，一共80个题目。测验结束后，我们可以绘制三个年级的趋势线。这个估计程序的结果则如图13.5所示。

图13.4　三个年级的学生表现

图13.5　用于估计未接受测验年级学生平均分数的趋势线

为了确保这些估计的年级当量分数的准确性，必须确定几个假设。首先要假设每一个年级受测验的课程都受到了同样的重视。还要假设学生对于测验内容的掌握，在相当长的一段时期内，随着年级的增高以适度的恒定速度提高。在课程中，不同于阅读和数学，我们很难支持测验内容的掌握在一定时期内持续提高的假设。而且即使在这两门基本课程上，学生对于内容掌握的持续提高也肯定是有争议的。

因此，6.2这个年级当量分数的精确度是很难保证的。一个不熟练的标准化成就测验结果的解释者会认为，6.2的年级当量分数意味着学生的原始分数代表了他的表现相当于一个六年级的学生在学年第二个月的表现。记住，大多年级当量分数都是在估计的基础上得出的，而并不是根据真正的测验分数。因为可能出现大量的取样和估计误差，所以对待年级当量分数必须有所保留。

现在，您知道了年级当量分数充其量就是粗略的估计之后，让我们回过头来看看教师和家长们在解释年级当量分数时可能犯的错误。我们假设一个三年级的学生阅读方面的年级当量分数是5.5。这个分数意味着什么呢？这里有一个错误的答案：“这个学生能完成五年级的功课”。当然，正确的答案是这个三年级的学生能够像一个普通的五年级学生在年中时一样好地理解这个测验涵盖的阅读技巧。一个年级当量分数应被看作一个学生处于发展线上的某一点，而不是这个学生所达到的年级水平。

如果你们学校所在学区正在使用标准化测验，而这些测验得出了年级当量分数，那么向家长准确地解释年级当量分数的含义就很重要。那些不知道此类分数的准确定义的家长们常认为，高的年级当量分数就意味着他们的孩子可以完成该年级的功课。一些家长甚至根据较高的年级当量分数劝说他们的孩子跳级。因为很多家长对于年级当量分数都有误解，所以他们对自己孩子的成就水平估计过高。由于家长（和教师）经常作出错误理解，因此一些学区在报告标准化测验结果时，就取消了年级当量分数。

记住，如果一个四年级的学生在数学测验中得到了7.5的年级当量分数，并不就意味着他能够做好七年级的数学题。更恰当的说法是，根据7.5的年级当量分数，能估计出普通的七年级学生在四年级的数学测验中的分数。得到7.5的年级当量分数并不表示这个四年级学生具有在五、六或七年级教授的数学技能，因为这些数学技能极可能并没有在四年级的测验中出现。

但是年级当量分数比实际的年级测验还低，又是怎么回事？比如说一个五年级学生的数学年级当量分数为2.5。说这个五年级学生做五年级的数学题只相当于一个二年级学生的水平是不对的，因为二年级学生显然没有做五年级的数学题。最好的说法是，在数学成绩上，这个五年级学生似乎比年级水平落后了好几年。

现在，我们来看最后一种相对性分数解释模式：量表分数（scale scores）。量表分是从另一个角度来解释标准化测验分数。近来，量表分越来越多地用于报告全国性和全州性标准化测验的结果。

尽管量表分有时候并没有被用来向家长报告标准化测验分数，但量表分报告体系仍然经常被用来描述州级、学区级和校级测验中学生群体的表现。由于量表分具有统计特性，它们可用于对学生的进步情况进行纵向跟踪。量表分也可用于班级之间、学校之间或学区之间的直接比较。量表分有很多统计上的优势。因此，近年来，量表分报告体系得到了更广泛的运用。所以，您需熟悉量表分的主要特点，因为当您得到学生的标准化测验分数报告时，将用到量表分。

用于报告测验分数的量表通常是指在学生测验表现的基础上指派给学生的数字。数字越高（分数越高）反映成就或能力越高。因此，这样的量表由一组原始分数组成，每多答对一个题，原始分量表上就会增加一个点。然而，仅对原始分作出解释是很难的。一个学生在原始分数量表中的分数不能解释他的相对表现。所以，测量专家为解释测验设计了不同的量表。

量表分是改造过的原始分，它用一种新的、随机选择的量表来代表成就或能力水平。现在，我们举一些例子帮助您理解将分数从一种量表转化到另一种量表是什么意思。从根本上说，一个量表分系统是通过设计一个崭新的、通常与原始分数有极大差异的数值刻度制成的。于是学生的原始分数被转化成这种新的量表，因此，在进行分数解释时，这些解释就基于经过转化的新量表的分数。这种经过转化的分数就叫量表分。

例如，在图13.6中，您可以看到在一项含有40个题目的测验中，原始分数点是从0到40。在原始分量表下方，可以看到一个新的、经过转化的、从500到900的分数量表。尽管原因很多，但简单地说，有时使用量表分报告模式比原始分报告模式更好。所以，如图13.7所示，一个学生答对了30个题所获得的原始分就会转换为800的量表分。

图13.6　原始分量表和转换分量表

图13.7　原始分转换为量表分的说明

量表分在近年来流行的原因之一，是需要为同一测验设计难度相同的不同版本。例如，有时在给学生颁发高中毕业证之前，要举行基本技能测验。那些最初没有通过这个测验的学生通常会有补考的机会。为公平起见，用于补考的这些测验与原测验的难度应该是对等的。然而，要设计难度完全相同的测验几乎是不可能的，所以需要用量表分来解决这个问题。从两套不同难度水平的测验中获得的分数，可以进行统计的处理，将这些分数转化为量表分数之后，新的量表分会显示学生好像在两个难度完全相当的测验中的表现。

大多数更为流行的量表分系统都以统计学家所谓的项目反应理论（IRT）为基础。由于IRT量表分模式考虑到了测验中每个题的难度和其他的技术性能，所以IRT量表分报告系统与原始分报告系统有显著的不同。于是，一些测验编制者为他们的测验提供了基于IRT的、适用于从幼儿园到十二年级整个学习过程的量表分数，量表范围是0—1000。每个年级都有一个平均量表分。例如，三年级学生的平均量表分可能是585，而十年级学生的平均量表分可能是714。

如果仔细编制以IRT为基础的量表分，并参考百分位数的相对表现概念，就能够很好地解释测验。如果提供的是不同年级的平均量表分，也有助于学生个体量表分的解释。然而，若没有相对解释的帮助，教师或是家长都不能有意义地解释量表分。

由于教师认为所有的量表分在一定意义上都是相似的，所以在解释量表分时总会出现错误。例如，80多年前，当第一次举办学习评价测验时，语言部分的平均量表分为500。这并不意味着现在这个测验的平均量表分仍是500，或者其他采用量表分的测验也总会得到500的平均量表分。量表分体系是可以创建的，可得到如50、75、600、700、1000或是任何设计者想要的数字。

当您处理学生在标准化测验中的分数时，会遇到这种量表分——正态曲线分布（normal curve equivalent）。正态曲线分布也称NCE。当测验中的分数分布呈一条完美对称的钟型的正态曲线时，那么正态曲线分布就表示由原始分数换算成的百分位数。因此，您的学生可能得到一个表明他的测验分数处于或是接近一个常模群体最高分数顶点的NCE分数。不幸的是，有时常模群体的分数或是之后测验参加者的分数都不是按正态分布的，那么学生的NCE分数就没有意义了。正态曲线分布最初是用于综合学生在不同标准化测验中的表现的，但或许并没有呈现过正态分布。正如猜想的那样，NCE无法令人满意地解决这个问题。

最后一种您需要了解的量表分叫作标准九分（stanine）。标准九分和NCE相似的一点就是它们都假定一组数呈正态分布。正如您刚读到的那样，这种假设与实际情况相违背。但您一会就会看到，标准九分更为粗略，因此它可以容许分数的分布偏离正态分布。

标准九分将分数分布分成九段，尽管在一列数的基线处是等分的（其实在距离上有1/2的标准差），但分数分布的比例是不同的。如图13.8所示，第五段标准九分处于分数分布的中心位置，包含20％的分数。然而第九段标准九分则仅包含4％的分数。

图13.8　标准九分代表的正态曲线下分数分布的近似百分比

标准九分的优势之一在于它们是近似量表分，而且它们的不精确性也更清楚地向人们表明教育测量并不是很精准的评价手段。当然，与大多数高层次的分类系统一样，一个学生可能因为差一两个点，就会处于一个更高（或更低）的标准九分段。即使您使用的是特意产生近似值的计分方法，测量的不精确性仍然存在。

我们已经讨论过的分数解释模式中，最常用的是百分位数、年级当量分数和量表分（标准九分和NCE用得比较少）。现在我们来复习和总结一下这三种最常用的分数解释方法到底有什么样的重要意义。

我们首先来看百分位数。百分位数表明一个学生在常模群体中所处的位置。如果一个学生的测验成绩为第25个百分位数，那么这个学生的表现就超过了常模群体中25％的学生的表现。百分位数的优点之一是易于解释，并且人们对百分位数的解释一般是准确的。百分位数的一个缺点是解释的准确性完全依赖作为百分位数基础的常模数据的性质。无代表性的或是过时的常模数据就会产生不准确的百分位数解释。前面已经提到，因为百分位数的运用比较广泛，所以教师必须了解这种解释方法。

优点：易于解释

缺点：依赖常模群体的质量

下面我们来看年级当量分数。年级当量分数是根据年级水平和学年月份来确定学生的测验表现情况。因此，3.7的年级当量分数就表明一个学生的测验分数被估计为与三年级学生在学年的第七个月的平均表现相同。年级当量分数的优点之一，即因为它们以年级水平和学年月份为基础，可以更好地与家长进行沟通。然而年级当量分数的一个显著缺点就是它们经常被误解。

优点：易于沟通

缺点：容易被误解

最后我们来看量表分数。量表分数即通过将原始分数转换成在统计上更为有用的量表分来进行解释。例如，一个学生获得的原始分数是50道题目中回答对了35道，那他可能得到转化了的620的量表分。量表分的优点之一是可以被用来设计经统计处理后具有相同难度的不同测验版本。基于项目反应理论，量表分模式通过赋予难度不同的测验题目及其他技术特性权重的方式来达到目的的。量表分报告模式的缺点之一是几乎不能对它们进行单独解释（标准九分除外）。除非我们有意识地参考百分位数或是平均年级当量分数，否则，量表分数是无法解释的。

优点：能协调不同版本测验的难度

缺点：不易解释

现在您应该清楚了，这三种分数解释模式都是既有优点又有缺点的。您或许意识到了，即使您了解了三种分数解释模式的一般性质，但要想自信地解释每一个报告模式，还必须获得其他的技术信息。这些信息通常在标准化测验技术手册里可以找到。例如，作为一次测验百分位数基础的常模群体的性质是什么？设计一个量表分报告模式时需要用到哪些数学方法？当分数呈正态分布时就可以使用NCE吗？要想准确地解释某一标准化测验分数，教师有时需要自己就所用报告模式的内部结构下点工夫。

如前所述，全国性标准化成就测验是由商业测试公司开发并发布的。它们发布的测验越多，获得的利润也越多。因此，商业测试公司的代理们通常会暗示，他们的标准化成就测验不但能够为参加测验的学生提供准确的常模参照解释（norm-referenced measurement），还能够为从事课堂教学的教师提供大量有用的、用于教学决策的信息。根据我的经验，要通过标准化成就测验获得教学上的回报，是虚幻多于现实。通常，从此类成就测验中获得教学收益的论调反映了测试公司销售团队的热忱，而不是教师可以确实地将标准化测验的结果用于实现教学目的这个现实。

有标准化成就测验比根本没有好吗？当然是这样的。但标准化测验能为教师提供教学决策所需要的精确的诊断数据吗？基于多年使用这些测验的经验，我的答案是否定的。

不管小学教师教哪个年级，也不管中学教师教什么内容，现在，许多教师发现他们的注意力集中在学生标准化成就测验的分数上了。那是因为学生在此类测验中的分数越来越多地成为衡量教师教学成就的指标。因此，如果您所在的州或是学区要求学年末对您教的年级进行标准化成就测验。那么您肯定就会关注学生的标准化测验分数。在第15章中，您会知道为什么当采用某种形式的标准化测验时，这种行为是不恰当的。

但是，即使标准化测验在您所教授的学生所在的年级或班级上并不起主导作用，您也需要熟悉教师们和家长们解释此类测验分数的方式。因为，作为专业人士，教师应该知道这些。家长们有时会问什么是百分位数或NCE。您不要哭丧着脸说：“我不知道！”

当然，如果用标准化成就测验来评价您的学生，您也希望能够解释这些分数是什么意思，因为这些信息会在教学上对您有所帮助。例如，假设现在是开学第一周，您在查看您的五年级学生们在四年级末的测验分数。您发现玛莎·蔡尔兹（Martha Childs）的数学是第94个百分位数，但阅读只是第43个百分位数。这些信息会指导您该怎样教导玛莎。

如果比利·詹金斯（Billy Jenkins）四年级的测验分数情况是，语文位于标准九分的第7段，而数学位于第1段。那么，我建议您不要让比利保管学生们的午餐费。

如果您对学生们的相对成就水平定位更准确，那么您就能更好地进行教学。对标准化测验分数的恰当解释会对您的教学有所帮助。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈