表现性评价任务的选择

时间：2022-02-27 理论教育版权反馈

【摘要】：在弗朗辛的新评价方案中，学生90％的成绩来自于他们在表现性测验任务中的反应，其余10％由学生的课堂参与情况和各种小测验的成绩组成。弗朗辛要求学生完成的表现性测验任务是，设计并完成一个为期两个月的试验，具体包括，在不同条件下种植3棵指定的植物，然后撰写一篇正式的科学报告来描述这一实验。不过，也有同事相信弗朗辛的表现性测验方法符合生物课程的特点和要求。

表现性评价要求学生回应的是少量的有意义的任务，而不是大量的无意义的任务。比如，在传统的化学测验中，学生可能被要求完成50道选择题，而表现性评价要求学生完成的任务可能是，在化学课上操作一个实验，然后撰写实验报告解释实验结果、分析实验程序。同样，对化学老师来说，对每个学生的评估也不是基于50道选择题的答题结果，而是根据学生完成这个单一的、复杂的任务（实验操作）的具体表现。所以，选择有意义的“表现性评价任务”（performance-assessment tasks）非常重要，教师可以自己设计表现性测验任务，也可以借鉴其他教育者已经使用过的有效任务。

正如本书反复强调的，教师评价学生时要明确以下两个主要问题：①教师要得出什么样的评价结论；②教师可以依据评价结果作哪些决定。

举个例子，假设您是一名历史老师，暑假在湖边小屋休息时，也在思考关于课程的问题。经过3个月的思考，您认为自己真正想要培养的是学生运用历史知识解决实际问题的能力，这些问题可能是当前的，也可能是未来的，但都与历史事实有关。您决定放弃那些有着冗长的1500道判断题的期末测验（学生称其为“马拉松测试”）。现在，您将采用表现性评价测验，希望能够选择恰当的任务来测量学生运用所学知识解决当前的和/或未来问题的能力。

弗朗辛·弗洛登（Francine Floden）是肯尼迪高中三年级的生物老师。由于已经有几个同事告诉她传统的纸笔测验难以反映学生真正的科学素养，她最后决定尝试采用表现性测验来评估学生的科技能力，该测验将持续一个学期。在弗朗辛的新评价方案中，学生90％的成绩来自于他们在表现性测验任务中的反应，其余10％由学生的课堂参与情况和各种小测验的成绩组成。

弗朗辛要求学生完成的表现性测验任务是，设计并完成一个为期两个月的试验，具体包括，在不同条件下种植3棵指定的植物，然后撰写一篇正式的科学报告来描述这一实验。多数学生是在家里操作实验，也有几个学生把他们栽培的植物放在教室后面的架子上。实验过程中，有些学生通过改变光照总量和光照类型来制造不同条件，不过，多数学生通过给植物提供不同的营养来控制条件。几个星期后，弗朗辛所有学生的实验似乎都进展顺利。

尽管如此，同校的几位有经验的老师对弗朗辛的做法持保留态度，认为她的评价方式过于单一，过于依赖单一的实验。他们指出，弗朗辛很难仅凭一个单一的表现性测验，对学生知识和技能的真实水平作出有说服力的评论，他们建议弗朗辛减少表现性测验的比重，增加一些其他测验方式。

不过，也有同事相信弗朗辛的表现性测验方法符合生物课程的特点和要求。他们建议她坚持自己的做法，并且不要作任何改动。

➡ 如果您是弗朗辛，您会怎么办？

图8.2呈现的是教师的核心教学目标、以目标为依据的评价推论，以及用以获取数据的表现性测验任务三者之间的关系。可以看出，教学目标是教师确定评价内容的依据，而表现性测验任务则为教师评估学生运用知识解决实际问题的能力提供了证据。教师可根据评价结果，判断学生是否达到了教学目标要求的水平，从而确定下一步的教学计划。

图8.2　教师核心教学目标、以目标为依据的评价推论，以及将为推论提供数据支持的表现性评价任务之间的关系

表现性评价面临的一大难题是，它很难准确地概括学生的知识技能水平，因为它要求学生完成的任务数量比传统的纸笔测验要少得多。

举个例子，假设您想知道学生掌握两位数乘法计算的情况。出于教学上的考虑，如果您只能用半个小时来测试学生，您可以要求他们在规定的30分钟内完成20道乘法题（题量可能有点大，但我想描述一个鲜明的对比）。然后您可以直接从学生的作答结果，判断他们对两位数乘法的掌握情况。由于抽取的题目样本具有代表性，能够体现教学目标，所以您可以根据学生的测验结果“公正”地得出结论：“贾维尔（Javier）真正掌握了这些乘法题”，或“弗雷德（Fred）还不懂得如何进行乘法运算”。由于您的抽样（上面的20道乘法题）是合理的，包含了您想评估的知识点和能力水平，所以您可以自信地判断学生是否具备了解决类似题型的能力。然而，如果您想在仅有的30分钟内使用比较正规的表现性评价，那您最多只能让学生完成一个表现性任务。例如，您呈现一个需要进行乘法运算的实际数学题，要求学生在30分钟内，给出问题的解决方案，并用纸笔写下全过程，这对他们来说应该是很难完成的。而且，仅凭这个单一的任务，您能自信地判断学生是否具备完成类似乘法任务的能力吗？

正如前面所言，这是表现性评价的一个突出问题。因为学生只完成少数任务，教师很难据此对学生的能力作出类推性的评估。如果学生在某一个表现性任务中表现出色，是因为他已经掌握了任务所要测量的技能，还是他运气好？另一方面，如果学生在某个单一表现性测验中表现得很糟糕，这就说明他并没有掌握所要评估的技能吗？有没有可能是该任务的某一特征误导了这位在其他任务中表现得相当出色的学生呢？

作为一名教师，在教育测量面前，您会遇到两难选择。虽然表现性测验可以测量到您所要评价的学生能力（因为这些能力的达成往往与课程教学目标紧密相关），但是在根据学生的任务表现作出推论时要非常谨慎。至今我们还没能找到解决这一问题的完美途径。不过，我们至少可以在处理这一问题的时候尽量小心，在选择表现性任务时更加谨慎，提高任务准确类推学生能力的可能性。如果您能注意到这一点，选择那些具有较强类推性的测验任务，那么您对学生能力作出的推论也就更有说服力。

现在，我们已经讨论了表现性任务的类推性问题，许多专家认为这是教师在评估表现性任务时需要考虑的核心因素。除此之外，无论您是自己设计一个表现性测验任务，或选择一个已有的表现性测验任务，还需要考虑其他六个关键因素。

表现性测验任务的评估标准

■ 类推性（Generalizability）。能否从学生在这一任务中的表现推测他们在类似任务中的表现？

■ 真实性（Authenticity）。这一任务是否接近学生生活的真实情景，而不是学校情境？

■ 多重性（Multiple foci）。这一任务能不能测量多方面的教学成果？

■ 可传授性（Teachability）。学生能熟练完成这一任务，是教师教学努力的结果吗？

■ 公正性（Fairness）。这一任务对所有学生都是公平的吗？——换言之，它是否避免和排除了对学生的性别、种族、社会经济背景等方面的歧视？

■ 可行性（Feasibility）。这一任务考虑到了财力、空间、时间和设备等方面的条件吗？是否具备实施的条件和环境？

■ 可测性（Scorability）。这一任务能否让学生表现出可以准确、可靠地予以评估的反应？

无论您是自己设计表现性测验任务，还是选用已有的任务，您可能只会考虑其中的某几个标准，有时还会淡化一两个标准（如真实性或多样性），但我认为，在确定表现性任务时最好还是综合考虑所有因素。比如，在某些情况下，学校情境比真实情境更适合教师作出某些推论，这时就没有必要一再强调真实性标准。又如，考虑到表现性评价要花费大量时间和精力，如果测验任务能同时测量多方面教学结果显然比测量单一结果更加实惠，但有时某一教学结果非常重要，这就需要测验任务给予更多（或唯一）的关注。不过，上述两种情况并不多见，一个好的表现性测验任务还是应该具备上述几个要素。

在第1章，我曾保证如果您认真阅读完这本书，您的教学工作会更加出色。现在，我将向您作出另外一个承诺，我保证诚实地说出关于测量方法的真实意见。那就是，表现性测验确实很花时间！

试想，作为一名教师您需要在以下几方面投入大量精力：①选择适当的任务；②设计合理的评估方案；③给学生的反应打分。

所以，我建议大家在决定实施表现性评价之前要考虑另外一个因素，那就是所要评价技能的重要性。因为您在有限的教学时间内，只能使用少数几次表现性测验，要确保每一次的表现性测验都涉及您希望学生获得的重要技能。如果表现性评价不是针对这些重要技能展开的，您最好赶快停止，否则将得不偿失。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈