学业成就数据用于学校改进规划测量学业成就结果_提升学校领导力

时间：2023-07-01 理论教育版权反馈

【摘要】：学业成就数据用于学校改进规划测量学业成就结果_提升学校领导力_第四章　使用标准化的：学业成就数据用于学校改进规划测量学业成就结果学校改进数据的一个重要来源是标准化成绩测试。情境再现罗斯蒙特学校领导团队精力充沛地投入这项将使命目标和学校改进进程以及具体结果相结合的计划，然而，领导团队对基于数据决策过程中可能使用的数据类型和来源感到有些力不从心。

学业成就数据用于学校改进规划测量学业成就结果_提升学校领导力_

第四章　使用标准化的：学业成就数据用于学校改进规划测量学业成就结果

学校改进数据的一个重要来源是标准化成绩测试（standardized achievement tests）。在当前的政策环境下，学校、校长和教师对标准化评价的学生学习成绩负有责任。在本章末，你会对标准化成绩测试以及它如何用于甄别学生有一个深入的了解。

情境再现

罗斯蒙特学校领导团队精力充沛地投入这项将使命目标和学校改进进程以及具体结果相结合的计划，然而，领导团队对基于数据决策过程中可能使用的数据类型和来源感到有些力不从心。他们希望有一个向导帮助他们整理不同类型的数据，说明它们的用途，以便他们决定使用何种数据以及谁会帮助他们收集尚未利用的数据。团队决定从深入了解学校标准化成绩测试数据开始，与此同时收集其他类型的数据用于测量学生的学业成就和学习结果。团队了解到这些标准化测试数据是《一个都不掉队》法案和学校成绩单的基础，表明所有的子群体达到或未达到适当年度进展。

标准化成绩测试是学校改进计划和基于数据的决策的主要因素。在过去的10年，由于《一个都不掉队》法案，学校越来越多地对标准化测试的学生成绩负有责任。标准化成绩测试是决策的基础，罗斯蒙特学校每年都能够达到适当年度进展。通常在学年末执行的标准化成绩测试被认为是一种终结性的评价或测量。终结性测试用于评估学生业已掌握材料的程度，因此他们提供了有关学生的终结性信息。如何让测试成为标准化成就测试？标准化成就测试的一个主要特点是以规范形式呈现的比较数据（Comparison Data）。规范是一系列以外部参照组和标准组测验结果为基础提供的比较数据。规范组帮助提供测验信息的相关解释。国家规范（National Norms）是以全国学生的样本为基础，而州和地方的规范则适用于更具体的场域用以比较学生。规范通常按年龄和年级水平汇报成绩测试结果。(www.guayunfan.com)

标准化成绩测试可以通过测试实施之前的题项起草和检查的精细过程来建构。一群教育工作者和测试开发者将会审视国家的课程、标准和教材（或者州的，若他们正在为州设计标准测试）以将测试问题、题项与标准和课程相结合。题项的起草以内容大纲为基础，始终与标准和课程相一致。测试发展的首要环节是使测试题项适用于学生，不是测量学生的成绩而是确定题项本身的信息和属性：测试的题项是清晰还是模糊？只有一个正确的答案吗？测试题项超出了年级水平吗？测试题库开发了各个学科领域的测试题项（例如阅读、数学），也开发了用于测试的标准指导语。

一旦标准化测试被开发，评估他们的效度和信度就很重要。效度是指测验在多大程度上测量了预先设定的测试目标。例如，如果标准化成绩测试被认为能有效地测试词汇量，我们需要评估这套测试目标是否真与词汇测试有关。如果题项更多的是拼写和阅读理解测试的话，那他们也许就不是词汇测试，通常，标准化成绩测试最关键的效度问题要么与内容效度（content validity）要么与效标效度（criterion validity）有关。内容效度询问诸如测试内容是否反映了参加测试的某一年级学生应该掌握的标准、课程和教材水平？效标效度的问题是那些学习了考试所涉及的内容和材料的学生是否比那些没有接触或学习的学生在成绩上要更为出色？

信度是指测验结果的准确性程度——即每次测验结果的一致性。换言之，如果一个测试的信度高，那么学生成绩的改变可归因于学生自身，意味着学生已经学习了更多内容，而信度低的测试则不然，它会有许多模糊和可以随意猜测答案的条目。标准化成绩测试往往信度很高是因为在他们完成最终测试版本之前已经进行了全面的检查和条目校订工作。

了解标准化成就测试数据

有两种主要的标准化成绩测试数据：标准参照测验（criterion-referenced tests）和常模参照测验（norm-referenced tests）。标准参照测验指明了学生掌握学科具体目标（content-specific objectives）的百分比，就其本身而论，标准参照测验以技能的掌握，或者被测试的标准为焦点。标准参照测验不同于常模参照测验之处在于前者旨在按标准测量评估个体的成绩，例如具体的技能。后者则通过参加同样考试的他人的成绩评估学业水平。

标准参照测验

表4.1提供了学校范围内的成绩测试结果，该项结果关注学生对具体学习目标的掌握。就其本身而言，它充当了标准参照成绩测试的例子。表4.1的数据采集自三、四、五年级。左边一栏显示了内容领域（content area）和内容具体目标（content-specific objectives），或者每一年级测试的标准水平。表格中呈现的数据是每一年级掌握学科具体目标或标准的学生比例。例如，在三年级，44%的学生掌握了阅读目标2，即基础阅读。在数学计算方面，82%的三年级学生掌握了目标43，即整数相加（Add Whole Numbers）。你或许会注意到并非所有的标准或目标都会逐年被测。因此，某一年级的一些测试成绩留有空白。空白处表明这一年级的学生未参加具体目标的测试。例如在三年级，学生未参加阅读目标1的口语交际测试。三年级学生也未参加数学计算目标48至51的测试。

表4.1　标准参照成就测试（Criterion-Reference Achievement Test）

续表

来源：Paul Changas.

如表4.1所示，虽然每个年级的学生都会接受与年级水平相当的测试（gradelevel-specific test），但是我们能够通过检查跨年级的特定目标数据以比较掌握该目标的学生比例。在词汇目标36也就是多义词这一目标上，掌握的在校学生比例从三年级到五年级有了提升。特别值得一提的是，掌握的学生比例从三年级的17%上升到四年级的36%，最终达到了五年级的79%。另一方面，在一些具体目标上面，掌握的学生比例在下降。例如，在词汇目标37即语境中的单词上，掌握目标的学生比例从三年级的70%降至四年级的15%再到五年级的21%；在数学目标13即测量上，掌握目标的学生比例也从四年级的25%降至五年级的20%。这些是校长和教师应该集中全力提升学科领域的事例。需要记住的是，当比较跨年级数据时，你比较的不是同一组的学生而是完全不同的学生，因为表中显示的只是一年的数据。

按教师分类的标准参照测试和常模参照测试

表4.2的数据使我们可以把某一特定学校五年级学生的整体成绩和国家参照组的五年级学生相对照。也就是说，这个表格提供了常模参照测试数据，而且，表4.2提供的数据是按年级水平分类的，因此可以比较同一所学校五年级中三个班级的成绩数据。当我们观察学校范围的数据时，请注意表格左边一栏包括在五年级测试的相同的语言艺术以及数学内容领域和目标，或者我们可以称之为标准。就这一点而言，表4.2提供了标准参照数据，同时它为全国五年级学生常模组提供了附加的参照数据。

表4.2　被分解的标准参照数据和常模参照数据

续表

来源：Paul Changas. *目标绩效指标（OPI）是以100 个目标条目作为基准的正确数量 ●完全掌握（范围：75 ～100 正确） ■部分掌握（范围：50 ～74 正确） ◎没有掌握（范围：0 ～49 正确） *全国5 年级参照组

让我们首先关注表中标有“掌握各个目标的学生比例”这一部分。前三栏使我们能够将在校的五年级学生与全国五年级参照组的学生做比较。注意标有“学校总体”一栏的数据与此前学校数据表中显示的掌握学科目标的学生比例相同。第二栏中的百分比则来自全国五年级学生参照组。第三栏显示了在校五年级和全国参照组之间的区别。在阅读、词汇和语言学科领域，在校五年级学生表现明显优于全国参照组。尤其是阅读目标2和3，学校掌握目标的学生比例分别多出了15%和16%。然而，在语言技能、数学和数理计算方面，在校五年级学生掌握的比例等于或低于全国参照组。例如，数学目标13和14，掌握的学生比例低于国家平均水平7个百分点。从前三栏来看，学校看来需要关注五年级的语言技能、数学和数理计算方面。

我们也可以通过观察按班级水平进行分解的数据以便深入理解在校五年级学生的表现。琼丝、罗宾逊和史密斯是在校的五年级老师，我们来看看他们每个班上学生掌握每一目标的比例。从数据来看，很明显琼丝班上学生掌握目标的比例要高于罗宾逊和史密斯班，而且，琼丝班上学生掌握目标的比例要高于学校和全国平均水平。如果我们对比罗宾逊和史密斯的班级，我们会发现史密斯班的学生对阅读和词汇的掌握要高于罗宾逊班。然而，在语言、语言技能、数学和数理计算方面罗宾逊班的学生要优于史密斯班。我们会注意到史密斯班没有学生掌握小数和分数。从数据分析来看，史密斯班尤其需要支持，这意味着老师们需要一起共事的机会并且在各自擅长的领域为彼此提供指导和帮助。

现在让我们转向表格中的第二部分“平均目标绩效指标”（Average Objectives Performance Index）来探究其他用以检查在相同学科目标上的学生成绩数据的方法。表格中这一部分的数据是以目标绩效指数来呈现的数字，或者简称为OPI。OPI是每个单项目标下100个相关题项被正确回答的数值，也即正确回答每一单项目标的题项比例。例如，我们假定有15个供数理计算目标45（整数相乘）的测试题项。据报道称学校总体的目标绩效指标是55，这意味着该校五年级学生回答的平均正确率是55%，也就是说五年级学生在15项测试中能正确回答8.25个，即55%的正确率。我们可以使用OPI数值来确定掌握水平。在表格左下方角落你可以发现三种掌握水平及其OPI范围。OPI值在75和100之间是完全掌握水平，用实心圆表示。OPI值在50至74之间是部分掌握，用实心正方形表示。OPI值在0 至49之间是没有掌握，用空心圆表示。

通过这些数据我们可以再次将该校五年级学生与全国参照组的五年级学生进行比较。总体看来，该校的五年级学生在除了分数以外的所有目标上均已达到掌握或者部分掌握。请注意学校和全国参照组之间的差别和此前我们分析学生掌握各个目标比例的模式是相同的。在阅读、词汇和语言内容领域该校五年级学生的表现要优于全国平均水平，而在语言技术、数学和数理计算内容领域该校五年级学生的表现等于或低于全国平均水平。我们此前检查学生掌握目标的比例时，已确证了需要帮助的内容领域。

如果我们观察三位五年级教师所教学生的掌握水平，我们会发现琼丝的学生在10项内容目标上达到掌握水平，在13项目标上达到了部分掌握水平。通过比较发现，罗宾逊的学生在三项目标上达到掌握水平而史密斯的学生仅在两项目标上达到掌握水平。所有班级学生在对分数的掌握上均处于未掌握水平。罗宾逊的学生在语境中的文字一项处于未掌握水平，也请注意史密斯的学生在数理计算目标上均处于未掌握水平。

即使琼丝的班级表现出最高的绩效水平，但是仍有改进的空间。琼丝班上的学生在12项数学目标上仅掌握了其中两项。鉴于每位教师需要重点关注数学，学校想要制订针对五年级内容目标的专业发展计划，这些目标旨在改进课程、教学内容和教学策略。

此外，值得一提的是从这些数据中，我们无从得知各班学生在学年伊始在成绩和能力方面的起点。换句话说，特别是当学校实行分组和分流时，不同班级的学生可能存在差异。史密斯可能会是一个优秀的老师但是其学生的起点水平较低。正如第三章提到的，发现问题的过程很关键。工作小组分析有关数据所展现的趋势和问题，并且努力地发现有关竞争性解释的信息（例如成绩好的学生可能被安置在同一位教师的班上，使得最终测试成绩也很好）。于是讨论范围缩小，最终聚焦成一个问题：何种因素阻碍了学习？收集多来源的数据是这一探寻过程的一部分，这些数据包括学校改进的指标和路径。

我们尚未回答，史密斯是如何帮助学生达成目标的？增值评价（Value-added assessment）关注某一时间段的学生成绩的增量而不是在某一个时间点上学生成绩水平的报告或者总体测试成绩（如同上述讨论和表格中描述的那样）。学生成绩的增值是通过测量学生逐年的成绩发展状况来获得的（American Educational Research Association，2004）。“起点低的学生会有更大的增长空间，反之亦然。通过这种方式，增值评价帮助我们了解除了学生的家庭和社区的支持以外，教育工作者们如何提升学生的学习”（AERA，p.1）。使用增值评价的好处在于基于数据的决策旨在重点关注学生成绩的增量，通过“消除学生背景的巨大差异”实现统计上的公平。简言之，“增值评价是一项不考虑学年伊始学生起点水平而仅仅在学年末比较学生成绩的增量的措施”（AERA，p.4）。

根据《一个都不掉队》法案，一些州开始使用增值问责方法（Value-added accountability approaches）来测量年度学业成就，增值评价也随之变得越来越重要。

常模参照测试成绩的种类

多种分数可用来说明与常模组相关的标准测试成绩结果。表4.3显示了一名五年级学生的常模参照报告。常模参照结果对教师有益，因为它帮助我们比较该学生与其他五年级学生有关的表现。左边一栏里的数学、数理计算和数学组合构成了学生数学的总体成绩。在这份报告单上，常模测试成绩有四种类型，它们分别是国家九级记分制（National Stanine）、正态曲线当量（Normal Curve Equivalent）、量表分数（Scale Score）和国家百分位制（National Percentile）。

表4.3　学生常模参照测试成绩数据

来源：Paul Changas.

国家九级计分制是按照1至9级将正态曲线分解成大的区间的规范化标准分数。我们可以认为，在九级计分制里，如范围在1到3之间的视为低于平均值，4到6之间视为平均水平，7到9之间视为高于平均值。国家九级计分制不够精确是因为我们无法确定分数是处于该分数区间的顶层还是底层。使用九级计分制我们也无法观察成绩上的细微变化。由表4.3可知，该份报告上的学生在数学上的九级计分制值为5，在数理计算上为6，在数学组合上为5。从这些数据可以明确看出该学生处于国家计分制的平均范围。

接下来的常模参照测试分数是正态曲线当量，或者简称为NCE。NCE分数是建立在等距量表基础上的规范化标准分数。和百分位制的级别相似，NCE分数的变动范围在1至99之间，然而，不同于百分位制的是，NCE分数上一个数值的间距变化对整个量表具有同等的意义。NCE分数在子测验上也具有同等的意义。例如，该份报告的学生，在数学的NCE值为46，数理计算为61，数学组合为53。该同学在数学计算上的表现更为出色，而整体上该同学的成绩处于平均水平。

第三项常模参照测试是量表分数。量表分数是通过数学方式转换学生的原始分数形成的。量表分数的变动范围取决于参与的特殊考试。例如，该学生参与测试的量表分数变动范围是1至999。量表分数的范围跨越了所有的水平和测试年级，使教育者能够测量学生逐年的成长。该学生报告显示出学生的量表分数值在数学上为640，在数理计算上为657，在数学组合上为649。为了解释这些数据，我们需要学生往年的成绩或者其他学生成绩的正态分布以便于比较。

最后一项常模参照测试分数为国家百分位制。国家百分位制的变动范围在1 至99之间，它列举了低于既定学生测试成绩的全国常模组学生比例。例如，该份报告中的学生在数学上的百分位制排名42，意味着他的分数要高于全国42%的学生。而在数理计算和数学组合上的百分位制排名分别为70和56。国家百分位制的间距是不等的，意味着分值只是一个相对的排名，但是它会随着参加考试的常模组逐年变化。

在所有这些解释方法上，可以明确的是结果之间是一致的。每个成绩测试结果显示该学生处于一个平均水平。常模参照结果使我们可以将学生与全国平均水平进行对比，如果我们拥有学生早先的测试结果，我们会检测出随着时间的推移学生的成绩变化。

按国家四分位制和年级划分的常模参照成绩数据

如表4.4和表4.5所示，常模参照数据往往会按国家四分位制汇报。这些表格使我们能够检测出在校学生在以下四项国家四分位制中的比例：1%至25%，26%至50%，51%至75%和76%至99%。当使用四分位制检测成绩数据时，我们期望学生在顶层的两个四分位制的比例更高，而底层的两个四分位制的比例更低。在分析过程中，我们会寻找在四个区间学生分布不均衡的内容领域，以确定学校在该内容领域是过剩还是短缺。其目标旨在尽可能地推动学生向第3和第4个四分位迈进。

现在让我们来看一下三、四、五年级的学校数据。表4.4和表4.5是针对各年级水平和测试内容领域按照国家四分位制进行划分的学校数据。你也许会注意到除了内容领域，阅读组合、语言组合、数学组合和总体分数等类别都包括在表格里。添加这些分类旨在通过合并相似的内容领域增加对学校数据的整体理解。例如，阅读组合是阅读和词汇的分数总和。

表4.4　在阅读和数学上按国家四分位制和分数统计的学生成绩

来源：Paul Changas.

表4.5　在科学、社会研究、拼写和文字分析上按国家四分位制和年级划分的学生成绩

来源：Paul Changas.

在三、四年级，学生在各个四分位之间的等级分布大致是均衡的，然而，在一些内容领域，学生成绩有向底层四分位倾斜的倾向，这些是我们应该密切关注的内容领域。例如，在三年级，语言结构、语言组合和拼写内容领域均向前四分之一倾斜，表明在这些内容领域，三年级学生成绩在前四分之一的分布比例更高。另一方面，在阅读组合和科学这些内容领域里三年级学生成绩向后四分之一倾斜，这表明三年级在这些内容领域可能需要最多的帮助。

正如表4.4和表4.5所示，在五年级，国家四分位各个区间的学生成绩均衡分布的比例降低了。事实上，除了拼写以外的内容领域，学生成绩分布在底层四分位的比例比顶层要高，例如，在数学上，仅有11%的学生分布在前四分之一，而33%的学生的表现为后四分之一。该项数据会激励在校的管理者重点关注五年级。

我们通过学生掌握内容领域目标的比例和按国家四分位制的学生成绩分布分析了学校数据，你可能会对进一步分解数据感兴趣，因为我们将五年级视为该校关注的特殊领域，让我们通过比较跨年级的课堂表现来深入发掘吧。

用标准化的测试分数来监控熟练水平

由于《一个都不掉队》法案的颁布，各州每年都需要测试三到八年级所有学生的阅读和数学运算水平。在这一部分，我们将观察一个州的测试和问责项目的数据，以确定学校在实现他们的职责目标时确曾付出了努力。

我们将分析表4.6中一所小学三到五年级学生阅读水平的州测试数据。标准化测试根据四种成绩水平的划分汇报学生成绩。每个成绩水平与测试量表分数的变动范围相关。学生正确回答问题的数量称为原始分数。原始分数被转化为量表分数（scale score），这样可以便于比较学生升级过程中某一科目的期末成绩。人们期望学生的量表分数随着他们在校学习逐年都有提高。三到五年级的有关阅读的量表分数变动范围在115到178之间，数学在218到295之间。该州把这些量表分数划分为四种不同的成绩水平。

成绩水平被当作学业基准。我们之前所说的基准是评估和检测项目有效性的基线，它们也提供了持续监测的措施。基准测试提供了与人力、物力和财力资源分配相关的决策信息。

成绩水平　成绩水平是用来对学生的绩效与年级水平期望进行比较的绩效标准。许多老师的评价也被用来设定学生的成绩水平。每一学科领域要汇报四种成绩水平。每个成绩水平的描述如下所示：

水平Ⅰ：处在该水平阶段的学生未能掌握足够的该学科领域的知识和技术以使其在下一个年级水平取得成功。例如，该水平阶段四年级数学在第一年的量表分数的变动范围是221～239。

水平Ⅱ：处在该水平阶段的学生表现为对学科领域知识和技术的掌握不协调且没能为顺利进入下一阶段的学习做好充分准备。例如，该水平阶段四年级数学在第二年的量表分数变动范围是240～246。

水平Ⅲ：处在该水平阶段的学生表现为能够证明其持续地掌握了该年级水平的学科知识和技能且为下个年级水平做好了充分准备。例如，该水平阶段四年级数学在第二年的量表分数变动范围是247～257。

水平Ⅳ：处在该水平阶段的学生持续地表现优异，超过了年级所要求的熟练以上水平。例如，该水平阶段四年级数学在第二年的量表分数变动范围是258～285。

按照州的问责框架（accountability framework），成绩表现为第三或第四水平阶段的学生被认为是达到年级水平熟练程度或者超过了内容领域范围，这些学生为下一个年级水平做好了充足的准备。值得一提的是，学区或者州可能会改变量表分数的变动范围以使其适用于每年的各个成绩水平。

表4.6中呈现的数据反映了三、四、五年级在过去三个学年以来的表现。这些数据是每个年级的学生在期末的阅读测试中处于水平Ⅲ和水平Ⅳ的比例。请注意，这些比例不仅以学校水平汇报而且以学区水平汇报，这就有助于把罗斯蒙特学校的学生同该学区的学生进行比较。

表4.6　阅读的熟练水平数据

续表

来源：Paul Changas.

首先来看看三年级的学生熟练掌握阅读的比例。很明显，在第一年中64.7%的罗斯蒙特学校三年级学生达到了年级水平的熟练程度，这可与72.3%达到水平Ⅲ和水平Ⅳ的学区三年级学生相比较。你可能会注意到在接下来的学年里，罗斯蒙特学校达到熟练程度的三年级学生的比重持续低于学区的平均比例。事实上，除了第三年的四年级学生外，罗斯蒙特学校的各个年级水平在阅读分数方面达到水平Ⅲ和水平Ⅳ的学生比例连续三整年低于学区平均水平。

接下来我们来看这些数据呈现的趋势。你会注意到在罗斯蒙特学校的三、四、五年级达到水平Ⅲ和Ⅳ的学生比例增加了。然而，达到熟练程度的五年级学生比例的增长无法与其他年级相提并论。有必要记住的是跨年级的比较是基于每年不同的学生组进行的。也就是说，第一年参加测试的三年级学生与第二年参加测试的三年级学生是完全不同的。

作为一名校长，你可能会担心学校三年级和五年级学生的成绩低于学区的平均水平，五年级的学生需要特别予以关注。在这个年级发生了什么事情？有明显的教师流动吗？已经进行了课程改革吗？这些班级教学的情况到底如何？

表4.6中的数据使我们通过观察跨年度的数据追踪一组学生。例如，我们可以在第一年观察一组三年级学生，然后在第二年第三年对这组学生进行持续的追踪观察。这种方式被称为追踪一群学生。值得一提的是表中的群体并不是自始至终都保持不变的，因为一些学生可能离校了，而另外一些学生则中途加入了。

例如，第一年64.7%的三年级学生达到了熟练程度，而到了第二年当这些学生升至四年级时比例变为60.6%，到了第三年该比例则变成了68.2%。下一组三年级学生在他们的三年级和四年级间在缩小与学区其他学生之间的差距方面取得了更为显著的进步，尤其是在第二年，三年级的65.2%的学生处于成绩水平Ⅲ和水平Ⅳ，而在第三年当他们成为四年级学生时，75%的学生在阅读上达到了水平Ⅲ和水平Ⅳ。正如你所注意到的，罗斯蒙特学校四年级学生达到年级水平的比例要高于学区的一般学生。很明显，我们可能想要了解更多关于四年级水平的信息以提高学生的熟练水平。

该表中用于检测的最后一项数据是学区五年级期末目标。该学区在五年级期末在学生阅读方面有两个目标：第一是有95%的五年级学生在阅读方面能够达到年级水平，第二是有50%的五年级学生在阅读上要达到水平Ⅳ，或者说，将超过一般的期望值。请注意，根据报告，68.2%的五年级学生达到了学区在第一个目标中的规定。你能从表4.6看出这个数字来自哪里吗？68.2%这个值是第三年罗斯蒙特学校五年级学生达到水平Ⅲ和Ⅳ的比例。很明显，罗斯蒙特学校尚未实现学区规定的第一个目标，而且罗斯蒙特学校也未实现学区规定的第二个目标，因为只有28.4%的五年级学生在阅读方面达到了水平Ⅳ。你可能会注意到这个28.4%的值未在表中的前一部分显示，因为前面表中的比例是达到水平Ⅲ或者水平Ⅳ的学生比例总和。

有关小学阅读分数的分类数据

让我们来看已经按每一年级水平的种族（race code）和午餐代码（lunch code）进行分类的一组阅读数据。如果你仔细回想，这些分类都是非常重要的，因为《一个都不掉队》法案要求所有的学生每年都能取得适当年度进展。分析和理解学生子群体达到问责标准非常重要，这是《一个都不掉队》法案的一部分。这些数据在表4.7中予以呈现。在第一年，罗斯蒙特学校四年级学生中91.7%的白人学生处于水平Ⅲ和水平Ⅳ，而仅有44.7%的非裔美国学生和44.7%的其他人种学生处于熟练水平。在五年级，你可能会注意到在不同种族群体之间存在类似的学业成绩水平差距。这些数据表明在罗斯蒙特学校存在基于种族的成绩差异。种族差异并非局限于第一年，每年白人学生在各个年级达到熟练水平的比重要高于非裔美国学生和其他人种学生。

让我们看看在第一学年按照午餐代码进行分类的数据。与午餐付费学生中有89.7%达到熟练水平相比，参加减免午餐计划的四年级学生中，只有40.7%达到熟练水平。你会注意到这种情况不仅在五年级持续，在其他各个年级亦是如此。显然，在罗斯蒙特学校，减免午餐和付费午餐的学生之间存在着成绩差距。

接下来我们将检查跨学年的分类数据。在四、五年级，每个族群达到水平Ⅲ和水平Ⅳ的学生比例有所提高。

请记住，在进行跨学年的比较时我们的对象是不同群组的学生。例如，五年级的非裔美国学生达到熟练水平的比例从第一年的43.9%上升到第三年的54.2%，别忘了学区的目标是95%的五年级学生在阅读上达到年级水平，而在第三年末，罗斯蒙特学校仅有白人学生达到了学区目标。分解的数据表明罗斯蒙特学校的教育者和管理者需要关注非裔国籍学生和其他学生的熟练水平。

表4.7　阅读分数分类

来源：Paul Changas.

现在让我们看看根据午餐代码分类展现的跨年趋势。例如，参加减免午餐计划的五年级学生达到水平Ⅲ和水平Ⅳ的比例有了小幅增长，从第一年的41.1%到第三年的45.8%，而参加减免午餐计划的四年级学生达到熟练水平的比例有较大增加，这些数据反映出罗斯蒙特学校可能并未为提高五年级低收入学生的成绩水平做出足够必要的改变。

如果你还能想得起来，我们可以通过这个表中跨年度的数据来追踪同一组学生。例如，让我们追踪第一年时为三年级的非裔美国学生组（表中没有列出）。第一年49%的三年级非裔美籍学生达到年级水平，第二年升至四年级的非裔美籍学生达到年级水平的比例降至39.6%，在第三年已经升到五年级的非裔美国学生达到水平Ⅲ和水平Ⅳ的比例上升至54.2%，但是仍未实现学区的目标。请记住，《一个都不掉队》法案要求每一个学生子群体都要实现绩效目标，因此这些分析对于法案规定的问责目标是极为重要的。

接下来我们将要追踪第一年时为三年级减免午餐的学生群体（表中没有列出）。33%的减免午餐学生在三年级达到年级水平，该群体在升至四年级时比例有了小幅增加，升至34.6%，五年级时升至45.8%。请注意该群体也尚未实现学区目标。

通过对罗斯蒙特学校在阅读方面学校水平数据进行分类回顾，你可能会关注诸如基于种族和家庭收入水平的学业成绩差异，你可能也注意到罗斯蒙特学校似乎已经在努力提高学生的成绩，比如在第三年中四年级的学生表现出明显的学习进步。这个例子说明标准化成绩测试可以用于提供在校学生和教师发展的终结性评价。

标准化测试的局限

标准化的成绩测试有一些局限（Koretz，2002）。首先，假设认为学生的测试分数能直接明确反映出学生的学业成绩（Koretz，2002，p.754）。这一假设在很多方面是有问题的。一个问题是测试在多大程度上抓住和囊括了试图要测量的领域。例如，八年级的数学应该包括哪些内容？显然，该测试项目覆盖的范围很窄。第二，因为一个测试不能覆盖所有的领域（八年级数学），那些难以评估的通常被排除在教学以外。“例如，测试事实以及简单的数学运算程序远比测试解决问题的能力或者深入理解来得容易”（Koretz，2002，p.756）。这一局限带来的后果是针对同一领域的不同测试结果有可能存在明显的差异。

标准化测试的第二个局限是在特定的环境或场合下，它们无法与课程标准和教学重点相一致。许多标准化的测试是由全国性的公司或者组织制订的，而美国课程的多样性是很显著的特点，这使得教学内容和测试内容不匹配（Popham，2006），而且我们无法明确何种标准应该呈现在标准化测试里。

标准化测试是单一、一次性的，通常在学年末进行，测试分数也可能与学校外的因素相关。增值评价系统是一个试图将这些因素考虑在内以减少无关干预变量的机制。如同下一章我们将会指出的，也存在着其他与教学有关的用于评估学生学习的方式，这些方式提供多种数据类型和信息以帮助提高教学。

结　论

教育领导者能够牢牢掌握标准化成绩测试技术，并且能够利用这些数据提高学校教学水平是至关重要的。《一个都不掉队》法案规定，学校应对所有学生的成绩负责。学生成绩是建立在标准化测试分数基础上的，常模参照测试分数的多样性使教师和教育领导者能够深入了解与基准测试组相关的学生和学校业绩，增值评价系统则用于测量学生的成长变化。

实行分类数据使我们对特定分组的学生的表现进行更细致的分析。在整个基于数据决策的过程中，发现问题和分析问题的过程是必要的，这个过程使用多种数据以确定学生的需要是否得到满足并能了解不同的学校改进因素，诸如教师专长和学校文化。这些因素可以部分解释学生低成绩的原因。除了标准参照和常模参照成绩测试外，还有很多其他测量学生成绩的途径，在评估学习结果的时候需要重点考虑。虽然这一章重点关注利用终结性评价数据，但是在课程单元内利用数据的解释能力也很重要，我们将在第五章讨论形成性评估的重要问题。

讨论问题

1.与本章提供的分析水平相比，你利用分类数据提高课堂和教学水平的能力如何？

2.简单阐述表4.3中强调的四种常模参照测试分数重要性的原因。在当前的工作中你最有可能运用哪一个？

3.讨论一下你对你所在学校的一些看法和预测有哪些被数据证实或者改变。

4.讨论你对目前标准化成绩测试局限性的理解。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈