首页 理论教育 考试分数不能作为评价依据

考试分数不能作为评价依据

时间:2022-02-27 理论教育 版权反馈
【摘要】:为什么年度标准化测试分数通常不适用于总结性教师评价?这种情况一旦发生,教师的部分影响就会被忽略,得到的评价结果也有偏差,从而造成错误推断教师教学效能。所以,考试中的“速写”可能无法有效证明学生的写作能力。此外,写作测试开发人员再次为了控制评分成本,尝试用电脑对写作样本进行评分。以此种目的设计的测试必然不适用于教师评价,因为教师应当帮助所有学生取得高分。通过给定范围的测试,根据学生的分数进行排名。


为什么年度标准化测试分数通常不适用于总结性教师评价?要想回答这个问题,必须理解测试的本质,它们是如何设置以及如何管理的。


测试的潜在问题

首先,标准化考试的设立是为了收集语言能力、科学数学等领域中学生普遍成绩的样本,或者获取大量数据。因为每一科目的测试时间有限,用于取样具体学科的测试项目也就有限。经常有很多关键的目标没有测试。进一步说,标准化测试无法包括某一学习目标中足够的项目,用以判断学生对知识的掌握程度。所以,此类测试最多能够证明学生对样本领域的掌握程度,但是它无法说明学生对学科内某一具体学习目标的掌握程度。

许多测试把跨越多层级的成绩范围作为样本。如果是这样的话,学生成绩就能反映各年级教师的教学效能。但是这样就无法将单个教师对学生进步的贡献同教师小组整体的作用区分开来。而且,低年级的学生(和他们的老师)被要求掌握一些学习目标,而这些目标他们还没有机会学习。很明显,在这种情况下,让教师对学生的分数负责很不公平。

在一定情况下,联邦问责制测试要求规定,等级水平的测试范围必须仅限于该年级的成绩标准,并要求该年级所有学生参加测试。不允许出现超出年级水平的测试。在一个班里,如果有的学生成绩很好,就会出现“天花板效应”。也就是说,事实上,学生的能力可能远远超过了该测试本身的覆盖等级。一旦出现这种情况,就会低估了学生的成绩,可能也会低估了教师对学生的影响。在做出总结性教师评价时,如果此种现象发生,对教师也不公平。

其次,为了在有限的时间内使测试效率最高,测试开发人员常常依赖能够在单位时间测试最多项目的测试格式:选择题。的确,选择题提高了效率,降低了测试成本,但是也严重限制了学术成绩的测试种类。选择题测试能说明对知识和一些相对简单的推理形式的掌握程度。复杂的推理、技能或者与成绩相关的复杂创造——所有被看作是二十一世纪和《共同核心州立标准》中关键的因素,并不在选择题测试范围内,因为它们无法转化成相应的格式,这对那些有更好目标的教师并无益处。限制可评估的学习目标范围,最终可能会导致遗漏一些学习目标,而这些目标实际上是教师教学责任的重要部分,需要重点安排教学时间以确保学生掌握这部分知识。这种情况一旦发生,教师的部分影响就会被忽略,得到的评价结果也有偏差,从而造成错误推断教师教学效能。然而,要测试开发人员扩大学习目标范围,采用一系列评价方法,要付出更高的成本。正因为如此,他们通常才没有这么做。

不使用选择题时,测试开发者有时会采用写作题。这种情况下,学生需要进行写作,让评价者阅读样本并做出评估。通常只有一个样本,这样会严重限制写作评估(叙述、报告、议论等)的范围。良好的作品使读者身心愉悦,一个真正有能力的作家,会用各种各样的形式,在多种语境下做到这一点。然而仅仅一种形式的一个样本是有限的,无法推断学生的总体写作能力,也无法评判教师的写作指导对学生的影响。此外,考试时间有限,在如此重压之下写出的文章不能反映学生的课堂实际水平:他们平时有充足的思考时间,可以根据教师和伙伴的意见组织语言、拟草稿、修改。所以,考试中的“速写”可能无法有效证明学生的写作能力。

此外,写作测试开发人员再次为了控制评分成本,尝试用电脑对写作样本进行评分。学生的写作特点受到了严重限制,对读者的影响甚小。没有证据表明计算机程序可以完全准确理解复杂的意义,或识别精心设计的结构,或评估用词或语句通顺等特点对读者的心理影响。所以,写作评估唯一的方法就是由有资格的(也就是经过专业训练的)人进行评分测试。

闭卷考试是另外一个严重限制标准测试内容范围的因素,但是常常不受重视。换句话说,学生考试时,要仅仅依靠他们脑中现有的知识来答题。但是,在这个信息化的时代,暂不论本书的写作,所有人都不再仅仅依靠脑中已有的知识来解决问题。但是,在目前的课程大纲中(和过去一样),学生必须明白和完全理解的内容,同他们在需要时懂得何处获得、如何得到的内容,通常被我们区别开来。二十一世纪的学习目标要求教师能够为学生们区分出来,并帮助他们掌握这两部分的知识。但问题在于,根据目前的设计和管理,很大一部分州开发的和商业出版发行的测试,都无法评估学生对此类知识内容的掌握程度。

要理解大规模标准化测试,我们必须记住:几十年来,许多标准测试都是为了帮助学校完成按照成绩将学生归类的使命才设计的。以此种目的设计的测试必然不适用于教师评价,因为教师应当帮助所有学生取得高分。要进行学生排名(美国长期以来的常模参照评定测试的传统),在开发测试时,测试项目必须进行实际检验,以决定每个测试项目的难度,区分开那些已掌握和未掌握内容的学生。最后,开发人员挑选出一些简单的题目(许多学生都能做对),和一些相对简单,还有中等难度和高难度(很少有人做对)的题,它们有明显的区分度。通过给定范围的测试,根据学生的分数进行排名。如果测试开发者要选择一些项目,不仅需要在内容范围内,还要把握好难度和区分度,那么,就很难对某一学术标准进行准确、有深度并有良好控制的评估。测试的内容范围常常会受到技术特点的限制。

问责制测试的另一个标准特点就是时间有限。这曾经给考官提供了第二个检验学生表现的方法,并根据答题速度划分学生。但是如果测试结果要用来进行教师评价,那就存在问题了。考试中有些题目,阅读速度慢的学生根本就来不及做,但你不能断定他不会。因为这些学生如果有充足的时间,就能把题做对,那么较低的分数会影响我们正确判断学生表现以及教师对学生进步的贡献。

根据前面对年度标准化测试的分析,我们能清楚地认识到,我们并没有用高聚焦、高分辨率的显微镜检测学生学习的准确细节,而是在从三万英尺的高度观察学生学习的效果。在那个高度我们能看到什么呢?我们看到一幅跨越多个层级的模糊的学习目标蓝图,每个年级的水平都未得到完善的评估。得到评估的只有符合有限评估形式的学习目标,都可以得出分数,反映学习目标的表面掌握情况。它的水平精确,足以向当地媒体作年度报告。但是,如果要讨论人们的专业程度,我们就必须用更严格的标准。

值得一提的是,有些测试确实精确度更高。比如,一些州的评价和商业测试是为了说明学生个人成就的水平,有的也依赖于范围广泛、种类繁多的评估方法,反映出更复杂的目标。这种测试能够更全面准确地反映出学生学习是否成功。此类测试对于证明教师对学生的影响的潜在益处值得探讨,第三章里我们会详细讨论。

在这种情况下,某个教师分配的教学任务中的特定学习目标和地区、各州特定标准测试范围之间的重叠微不足道,这一点很清楚。这里就存在用标准化测试证明教师绩效评价的一个关键问题。一些(如果不多的话)教师高度重视的目标很可能没有被评估,而接受测试的目标内容很少,不足以推断学生掌握目标的情况或教师教学的影响。

如果同一课堂上学生的学术能力各有不同,有十分吃力的,也有天才学子,问题就更加严重了。教师必须完成教学的学习目标可能覆盖几个年级的学术掌握标准,任何测试都不可能面面俱到,极有可能再次使教师的日常实际责任和特定测试范围不相符。所以,让教师对分数负责很不公平。

寻找并利用与特定学习目标更一致的评估,是解决问题的唯一方法,正是这类目标指导着教师的日常教学。(下一章我会介绍这种方法)然而,这样做需要我们非常确定教师教学职责分配。一旦确定,我们就知道教师如何分配教学时间,必须收集信息,证明学生掌握每个学习目标的程度。只有这时,我们才能将学生的掌握程度和教师特定教学活动联系在一起。学校领导才能有效推断学生成绩以及教师对学生成绩的影响。

代表普遍成绩或众多标准的分数,并不能证明学生个人学习目标的完成情况,也无法用于判断教师教学职责。这种分数不能有力地支持有关学生进步的推论。正因为如此,也没有足够准确的证据对教师教学效能进行评价性的判断。

第一章中列举了有效的总结性教师评价的标准,包括用收集成绩依据这种方式,能够最大地增强教师教学和学生学习之间的因果联系。这就需要指导性干预和效能依据收集之间有紧密的联系。除非两者联系极为密切,否则,许多教师无法控制的外来因素会阻碍和影响学习。


前测和后测时间间隔

最新政策和惯例的核心问题之一是:为了进行教师评价,最近落实的大部分指导方针和法律需要依靠典型的年度测试分数。前测(评价教师影响的基础)和后测(显示进步情况)的时间跨度是一年。从常识可知,在这段时间里,大量教师无法控制的因素会影响到学生学习。这些混合的因素是多年以来大量广泛研究的重点。达尔丽-哈蒙德(Darling-Hammond, 2012)和贝凌尔(Berliner, 2014)已经综合分析了这些研究。以下是其中一些精彩论述:

用……(标准测试的分数)进行教师个人评价是因为,他们认为衡量学生成就能反映教师效能。然而,这一理论的前提是学生学习成绩由测试衡量,只受教师的影响,同学的进步以及课堂其他方面的提高都是相对独立的,但是当前的证据无法很好地支持这些假设。

最重要的是,研究发现,学生成绩不只受教师本身的影响,还有其他因素,包括:

贝凌尔早期讨论这些问题的时候,曾这样说:

我们通常认为的“教师的作用”,其实不完全,甚至可能不主要归因于教师。成绩实际受众多变量的相互作用影响,其中有教师和学校的同伴效应,课程大纲影响,学校领导影响,学校氛围影响,技术进步和使用的影响,地区领导影响……大众眼中,尤其是政治家眼中简单的教师—学生模式,尤其当然是互惠的……通过调查研究,我们发现,有许多课堂内部变量可以影响这种个体之间的关系,比如男女比例,学生能力的差别,受过特殊教育的学生数量,是否说本地语言,父母受过高等教育的学生比例……也有许多外部变量可以影响教学……(贝凌尔, 2014)

在一年中,可以肯定的是,不管是单独起作用还是复杂的相互作用(不得而知),这些因素都会以积极或消极的方式强烈影响到学生的学习,但我们不确定哪些因素影响了成绩,也无法估计影响的范围。从前测到后测的漫长时间里,我们无法鉴定某一具体课堂学习的原因,所以,让教师对课堂上学生成绩的变化负责并不合理。

我们可以从不同的研究方向得到相同的结论。显著的证据表明,教师的行为和学生成绩提高之间相关性很低。盖茨基金会做的一项大规模研究显示,教师教学行为与分数增长之间的相关性一贯低于0.3。因此,显然有除教师以外的因素在影响成绩(比尔和梅琳达盖茨基金会, 2010)。

实际上,这是一种有力的证明。微弱的统计关系表明,年度标准化问责测试不能有效进行教师评价。其研究教学质量差别的能力仍待考究,根据波帕姆(Popham, 2013)的观点,这是决定其是否用测试分数进行教师评价的关键。

标准化测试并没有明确的教学敏感性,所以在进行评价教师教学质量时,它有可能有参考性,也可能没有参考性。这就是下面这个结论的原因:一个合理的教师评价系统,如果采纳标准化测试分数作为学生进步的重要依据,那么,教学敏感性一定要有足够的证明。


分数变化:学生进步的百分点

在写作这本书时, 16个州已经明确要求,当地用年度标准化测试分数的变化计算学生进步百分点。这种情况下,每名学生每年的分数变化和其他成绩相仿的学生分数比较。当出现成绩变化时,就会按照变化的百分比进行排列。这就可以用于判断某一成绩范围内学生的进步或退步的幅度。百分比越高,学生进步就越大。采用这种模式,哪位教师的学生进步大,哪位教师的教学效能就高。

这种统计式分析没有解决上面所说的主要问题。由于各州的情况不同,依靠反映普遍成绩的分数只能很肤浅地反映关键学习目标的掌握程度,因此,考试分数可能无法作为单个教师负责的学生主要目标的成就依据。任何特定的评估方式(比如,过度依赖选择题测验项目),都可能不包括教师指定负责的主要学习目标,因为它们不能利用这种评估方式进行评估。还是那句话,前测到后测的时间跨度是一年,为教师无法控制的因素影响学习创造了条件。这种方法忽视了环境因素,这些因素会强烈影响学生的成长,所以无法推断教师影响的因果关系


底线

在第一章中,学生成绩作为评价过程的一个影响因素,我们考虑到了有效的总结性人事评价标准。表格2中再次出现了这些标准,也有标准化测试分数中出现的问题。

表格2:依赖标准测试分数导致评价结果无效

工作中普遍的人事行为标准为政策制定者带来了一个重要问题,他们希望标准化测试分数成为教师评价的一部分。在做出人事决策之前,如果绩效没有达到预期结果,他们还有机会改正。如果没有机会呢?比如,假设一位老师的学生的分数没有达到预期结果,如果他没有机会纠正,教师的任务与测试结果就不相符,或者教师无法控制影响分数的因素,那么,我们就断定这位老师没有达到绩效标准。从人事管理角度看,这当然不对,也没有说服力。因为一个不了解情况的评判员据此做出的行为判断很难公正。


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈