首页 理论教育 通过标准化成就测验进行教学评估

通过标准化成就测验进行教学评估

时间:2022-02-27 理论教育 版权反馈
【摘要】:通过学习,您会发现其中有两种类型的标准化测验根本不合适用来评价教师的教学。这里的常模是通过对全国范围内某一年龄或某一年级学生进行大规模抽样而获得的,它描述了特定年龄或是特定年级学生应该在特定领域中掌握知识和技能的基本情况。一个明显的事实是,国家标准化成就测验的经营商在销售方面也面临着巨大的压力,这种压力源于当前美国存在类型繁多的课程标准。

不少家长和教育政策的制定者认为,评价教师教学有效性或是学校教育有效性的最好依据就是学生在标准化测验中的成绩。然而,不论这种观点是否为大众普遍接受,但它绝对是错误的。事实上,学生在特定类型的标准化测验中取得的成绩不能够准确地佐证教学质量的高低,但是许多教师并不明白其中的原因。于是,许多家长和学校董事会成员就会固执地认为,任何类型的标准化测验分数都能够为评价教师的教学提供有力的依据,这样的家长和学校董事成员犯的是相同的错误。

这就是我在本章安排这一部分内容的原因,我想通过自己的描述向大家解释“为什么学生的标准化成就测验不能用来评估教师的教学”(经常遇到的情况是:一所学校对全体教职员工的评估都是以学生的标准化测验成绩作依据的)。如果您真正了解了为什么学生的标准化测验成绩不太适合成为判断教师素质高低的依据,那么您就可以向父母和政策制定者作出解释了。

许多教师认为标准化测验就一定是标准的,但事实上,这些教师的观点是错误的。在本章的下一部分内容中,您将会接触到三种不同类型的标准化测验,它们都是目前经常用来评价教师教学的工具。通过学习,您会发现其中有两种类型的标准化测验根本不合适用来评价教师的教学。

如前所述,所谓的标准化测验就是按照前期预设的标准进行施测和评分的测验。而且,正如您已经看到的,标准化测验主要分为两种基本的类型:一种是能力倾向测验(aptitude tests),另一种是成就测验(achievement tests)。标准化能力倾向测验主要用来预测在相同的教育背景下学生的表现如何,最常见的例子就是SAT和ACT,这两个测验都被用来预测高中生进入大学之后的表现。但是因为标准化成就测验的分数常常被公众和学校董事会成员作为他们评价一个学校教育效果的依据,所以本章将重点讨论与上述背景密切相关的标准化测验问题,从而尽可能地做到有的放矢。

首先,我们来了解一些传统的国家标准化成就测试,其中有一些测验已经沿用了七八十年,算得上是历史悠久了。目前,仍被广泛使用的五种具有代表性的测验分别是:美国加州成就测验(the California Achievement Tests)、基本能力综合测验(the Terra Nova,前身被称为综合基础技能测试)、爱荷华州基本技能测验(the Iowa Tests of Basic Skills)、大都市成就测验(the Metropolitan Achievement Tests)、斯坦福成就测验(the Stanford Achievement Tests)。

当今,第二种用来评价教师工作效能的标准化成就测验被称为基于标准的成就测验(standardized-based achievement tests)。这些测验通过考查学生是否掌握了重要的课程目标——通常所说的内容标准,来给学生评定等级。基于标准的成就测验通常是州一级水平的测验,也就是说,大多数这样的测验都是针对每个州的具体情况、由专门的商业化评价机构来量身定做的。设计这样的测验往往既要满足各州的需要,还要同时符合联邦法律规定的问责制条款的要求,如NCLB法案的要求。

具体而言,基于标准的成就测验又包含了两种截然不同的类型:第一种类型不适宜用来为评价教学提供依据,也就是说,这种类型的测验基本上不能够鉴定教学究竟是成功的还是失败的。第二种类型则适宜为评价教学提供依据,也就是说,这种类型的测验能够帮助我们判断教师的教学是否对学生产生了影响。

现在,我们就共同来学习以上提及的三种类型的标准化成就测验,我相信您会很快发现其中两种类型的测验真的不适合用来评价教师的工作效果。

设计国家标准化成就测验的测量专家一般都是心理测量领域中的泰斗式人物,他们构建的评价工具能够帮助人们进行合理的推理,从而针对某一特定的学科,判断出学生究竟掌握了哪些知识和技能。更为准确地说,这个推理建立在比较的基础之上,即将某些学生掌握的知识和技能与常模展开比较。这里的常模是通过对全国范围内某一年龄或某一年级学生进行大规模抽样而获得的,它描述了特定年龄或是特定年级学生应该在特定领域中掌握知识和技能的基本情况。无论对于家长,还是对于教育工作者而言,通过国家标准化成就测验获得的都是学生掌握知识和技能的相对性结论。

由于各个年级的学生需要掌握的知识和技能都堪称为“数量庞大”,所以想要在一个测验中涵盖所有的学习要点,对于设计者而言,这是根本不可能做到的。如果一个测验真的做到了“包罗万象”,那么,它的长度将不可想象。

事实上,如果时间允许,标准化成就测验往往需要通过回答很多具体细致的测验题目才能够最终完成测量的任务。解决标准化成就测验任务的关键就是恰当地选择有代表性的知识和技能,通常情况下,针对一个内容领域,需要有40到50个题目才能组成所谓的标准化成就测验。

因而,基本的程序是:①仔细选择合适的评价内容;②重点关注那些对学生而言区分度高的题目。国家标准化成就测验的研发工作者已经研制出了很多评价工具,这些工具的广泛应用能够帮助我们通过与全国同龄学生的比较判断出自己学生的学习情况。假设国家的常模的确具有代表性,那么教育工作者和家长就能够获得关于学生学习状况的最有价值的结论。但需要注意的是,国家标准化成就测验不能被用于评价教育质量,因为它在设计之初就没有被赋予这样的责任。让我们从三个方面具体地分析为什么传统的国家标准化成就测验的分数不适合作为评价教学的依据。

 

测验与教学间的“一致性”名不符实

 

负责研发和销售国家标准化成就测验的公司常常都隶属于规模较大的营利性机构,这些机构的基本目的就是为他们的股东赚取更多的财富。所以,这些销售国家标准化成就测验的营利性公司,要想生存就必须不断追求利益的最大化。

一个明显的事实是,国家标准化成就测验的经营商在销售方面也面临着巨大的压力,这种压力源于当前美国存在类型繁多的课程标准。不同的州都会拟订自己的标准,出版商要想大量销售国家标准化成就测验,就不得不考虑各州教师的不同教学需要,他们得绞尽脑汁让自己设计的国家标准化成就测验与各州的需要匹配起来。

从一般意义上讲,教育工作者即使身处不同的教育环境,但他们追求的目标也会非常相似。比如,您知道所有的学校都无一例外地关注语言、数学等学科。但也要明白这仅仅是个大体的情况。在不同的地方,课堂教学目标事实上也会存在很大的差异,这种差异就势必会影响到标准化成就测验的销售范围,甚至可能成为销售的一个严重障碍

由于全国各地的课程设置很不一样,州与州之间存在着一些或大或小的差别,所以测验编制者就力图编制出一套“放之四海而皆准”的评价工具。但是,正如我们大多数人都明白的那样,这是根本做不到的。

正是基于上述原因,所以设计合适的标准化成就测验的题目相当困难。尽管研发人员非常努力地工作,希望编制出可以适用于全国各地学生的、教育工作者都认可的、最具典型性的知识和技能的题目。但是,他们不可能做到这一点。因此,对于不同地区的师生而言,标准化成就测验必然会包含若干不适合的题目,这些题目无法反映出具体教育情境下的教学重点。

如果您花一段时间仔细研究文学标准化成就测验中所给出的描述性材料,您会发现材料中的描述相当笼统。之所以采用这种“泛化”的描述就是为了在课程目标各异的背景下,标准化成就测验仍然可以满足不同地区的教师需要。理论上看,似乎这样的一个假设是成立的:即教学和测验是一个天然的联盟。但现实的情况是,教学和测验之间的关联性可能很小,甚至可能毫不相关。不管是否认识到这个问题,只要学生的标准化测验成绩被当作某一具体背景下评价教学效能的重要指标,那么这种错误的匹配就可能影响到对教师的评估结果。很显然,销售国家标准化成就测验的经营商主要是为了追求经济利益的最大化,他们不惜误导教育工作者,使不少教师认为国家标准化成就测验和本州的内容标准是非常一致的。然而,人们理所当然地认为州立课程标准和国家标准化成就测试之间存在“一致性”,其实在很多情况下,所谓的这种“一致性”判断是值得质疑的。那些坚信州立课程标准和国家标准化成就测验之间存在“一致性”的人往往是出于自身利益的考虑,即使根本就不一致,他们也会鼓吹“一致”。正因为如此,国家标准化成就测验不应该作为判断一个州、一个学区、一所学校或者一名教师工作效能的依据,因为国家标准化成就测验和教师的教学之间可能存在着很严重的不匹配和不一致情况。这是我所给出的首要原因。

 

重要测验题目被取消的倾向

 

标准化成就测验不应该被用来作为评价教学质量的第二个原因是,这些测验允许在只有少量题目的情况下对学生进行直接的比较和鉴别。而且,为了能使学生间的比较顺利进行,还对测验题目的成绩划分了一定的得分范围(score-spread)——不同的范围包括不同的学生,这种情况在测验常模组尤其常见。

一道最好的测验题目应该能够提供这样一个得分范围,即参与测验的学生中有一半人可以给出正确答案。一道测验题,如果有40%到60%的学生可以正确回答,那么就说明测验的设计者在离散度方面把握得很得当。相反,一道测验题目,如果大部分学生都能给出正确答案,那就证明测验的设计者没能很好地控制试题的得分范围。更甚者,如果90%的学生都能够做出正确答案,那么从测验的比较功能这一角度来看,其正确率太高了。

许多考试题目,如果80%的考生都能够回答正确,那么这种类型的题目就可能在筛选的过程中被淘汰,或是在下一次修订的时候被取消。结果就是:在标准化测验当中,绝大多数的题目都会是“难度中等”的题目。

为了满足得分范围的要求,研发人员在不断修订国家标准化测验的过程中删掉了那些学生普遍都能够正确回答的题目。然而,学生普遍能够正确回答往往意味着那是一个非常重要的内容,是教学时教师重点强调过的内容。因此,很可能出现的一种情况是:教师在教学中越重视的知识和技能在标准化测验中出现的几率越小。用这种评价工具对教师教学效能进行评价,简直是避重就轻的愚蠢行为。

 

因果关系混乱

 

学生在国家标准化测验中取得的成绩不应该被用来评估教育质量的最后一个原因,也是在我看来最为重要的一个原因。因为学生在标准化测验中的成绩受到三个主要因素的影响,而其中只有一个和教学质量相关。所以,声称学生测验分数的高低是由教学质量决定的,这种说法完全不合逻辑。

为了能够使您清晰地理解这个复杂的因果性问题,您需要认真查看一下标准化测验中经常出现的题目。记住,学生测验的分数取决于他们完成测验题目的情况。因此,想要透彻地掌握标准化测验,您需要花费时间仔细研究题目本身。

下面我列举了三个题目,这三个题目都是标准化测验中经常会出现的。但我在这里稍微对其进行了改动,不过并没有改变题目所要考查的实质。换言之,原始题目想考查的认知加工过程和修改之后想考查的是一样的。

就标准化测验而言,有三个因素会影响到学生的成绩:①学校实施的教学内容;②学生与生俱来的学习能力;③学生的课外学习活动。国家标准化成就测验的题目就试图对上述因素展开测量。

国家标准化成就测验中的一部分题目衡量的是学生在学校习得的知识或技能。一些具体的学科领域,比如数学等,学生都主要是在学校习得的。在家庭里,父母几乎不会花很多时间教他们的孩子学习错综复杂的代数知识,或是指导他们的孩子证明几何定理。

因此,要是您浏览了大量传统的标准化成就测验的试卷,您就不难发现试卷中题目的类型非常接近,重复率很高。以数学为例,图15.3所示的题目就是数学试卷里经常出现的题目,正如我在前面指出的,这道针对三年级学生设计的题目并不是我从国家标准化成就测验中直接引用的,而是稍微作了一点修改。

图15.3 三年级数学标准化测试题目

这道题目可以帮助数学教师进行有效的推论,即三年级的学生是不是有能力将语言文字描述的问题与减法的数学表达式对应起来。与此相类似,当教师想要了解学生能不能同样处理关于加法、乘法、除法等问题时,他完全也可以设计同样的题目作为推理的依据,但一定要保证文字描述足够清晰,确实能够合理地揭示出需要运算的问题。

然而,这里同样存在我们先前探讨过的教学与测验不匹配的问题,每一道标准化成就测验题目不可能与每一个地区的教学重点都吻合。而且,标准化成就测验的内容只能反映出部分教育工作者关注的焦点问题,而无法代表所有教育工作者的共识。因此,在教师的教学内容和国家标准化成就测验的内容之间存在着匹配不一致的可能性,而且这种几率很高。

如果传统的标准化成就测验所测量的就是学校真正教授的内容,那么,我绝不会怀疑用这些测验的结果评估教育质量的合理性。但是,您很快就会看到,国家标准化成就测验中还潜伏着其他很多不成熟的方面。

我常常想,要是所有的儿童出生时都具备相同的智力水平就好了,但事实上这是不可能的。有些孩子很幸运,遗传基因赋予了他们较高的天资,比如,有的孩子从一出生就对数字很敏感,比其他孩子可以更容易地掌握数学知识。如果孩子们携带着相同的学习能力来到这个世界,我相信教师的教学会因此而简化很多。

近来有些著名的教育家提出,智力具有多种类型,而不仅局限为一种(Gardner,1994)。因此,有的孩子天生就可能不善于处理数字或是文字任务,但是他们却拥有很好的“人际交往能力”和“自知自省能力”,只可惜常规的标准化测验不会针对这两种能力展开评价。国家标准化成就测验中各种常见的题目都与儿童天生的学习能力或多或少有些关系,如他们的言语、数量以及空间能力。更有甚至,有些国家标准化测验的题目直接测量的就是这些先天能力。

如图15.4所示,这是一道关于社会研究的考题。这道题目试图测量六年级学生是否具备“指出”正确答案的能力。我不认为这道题目测量的内容属于学校讲授的范围之内,而恰恰相反,这个题目测量的知识是学生在上学之前就已经具备的。

图15.4 六年级社会研究课程的标准化成就测验题

请仔细阅读图15.4给出的四个选项,判断哪一个选项是正确的。我相信,一个语言理解能力强的孩子很快就能指出选项A、B、D不能够真正“保护自然资源”,因此,正确答案自然就是C了。在解答这道试题的时候,天生语言能力强的孩子自然要比天生语言能力差的孩子更容易找出正确答案。

您会发现在国家标准化测验中,存在着大量考查学生“先天智慧”的题目。让我觉得非常气愤的是,有些题目竟然测量的是学生先天的空间能力。例如,四年级国家标准化测验中有这样一道试题:下列四个字母(如“E、L、R和B”)中,哪一个字母通过折叠可以得到两个相同的部分。如果学生没有先天的空间能力,他可能选择的答案就是B。但是,折叠字母,是多么愚蠢的一项技能啊!简直让人无语!然而,许多国家标准化成就测验就包含了诸如此类的空间——视觉能力测验题,这些题考查的根本不是学习能力,而是哪个儿童在基因选择过程“侥幸中了彩票”!

您可能禁不住要问,为什么国家标准化测验的研发人员会设计这样的一些试题呢?答案显而易见。因为这种类型的题目考查的是学生先天的学习能力,即使学校教学的内容和水平不同,学生这些先天的学习能力也不会被轻易改变,这样就可以使国家标准化测验看起来更具普遍性,从而能够被更多地区的教师和学生接受。同时,为了满足得分范围的要求,国家标准化试题限制了很多题型的使用,在评价学生的过程中只允许采用少数的几种题型。这种情况使得有些题目尽管问题丛生,但也能在国家标准化成就测验中广为流行。

然而,如果标准化测验的题目主要测量的是学生天生的语言、数量、空间能力,那么,教师根本不能据此判断学生掌握知识的程度。我们是否希望所有的孩子在“先天学习能力”测验中都表现良好呢?答案当然是肯定的。但是,使用这种类型的题目去判断教师教学的有效性恐怕就只能是一个“笑话”了。

一个特别令人不安的现象是:国家标准化成就测验中有一类题目专门考查学生在校外习得的内容。更为糟糕的是,您会发现这种类型题目出现的频次远远超乎您的想象。当然,对于那些家庭环境优越,能够享受丰富文化资源的学生而言,他们回答上述类型的题目并不是一件困难的事情。但是,相比之下,那些家庭占有文化资本非常有限的学生就很难在国家标准化测验中有出色的表现了。图15.5所出示的案例,就真实地展示了标准化成就测验是如何考查课堂以外的知识的。

这道专为四年级学生设计的阅读题目主要考查的是学生能否正确地辨析一词多义现象。就目标而言,我非常赞同学生掌握语义辨析的技巧,但是对于题目本身,我持有异议。

图15.5 四年级阅读试题

这道考题要求四年级的学生指出哪一个选项当中“field”的用法和题干当中“field”的用法相同。当然,正确答案是C。但不可否认的是:如果学生的父母是医生、律师或者记者,那么他们一定不会对“专业领域”这个词感到陌生;可如果学生的父母在洗车场从事洗车工作,或是在一家便利店担任出纳员,那么这样的父母不可能用“专业领域”来形容自己的工作。很明显,只有那些来自富裕家庭、父母当中一方或双方都是专业人员的孩子,才更有可能正确完成图15.5所示的阅读题目。反之,如果父母是体力劳动者,学生理解起来就会相对困难一些。毫无疑问,这道题明显与学生的家庭经济地位挂钩。

假设您所在学校的大部分学生都来自社会经济地位比较低的家庭,那么当他们面对国家标准化测验中大量与家庭文化资本占有量相关的考题时,会有怎样的表现呢?换句话说,如果很多考题都与社会经济地位挂钩,您的学生会表现如何?没错,这样的情形下,您的学生确实很难拿到高分。但是,这是否意味着学校教师的教学水平很低呢?恐怕并不是这样。

反之,假设您所在学校的学生都来自上流社会,父母接受过良好的教育。那么,在每年春天举行的国家标准化成就测验中,您的学生一定可以表现得相当出色。但是,这是否意味着学校教师的教学水平就很高呢?恐怕也不是。

我们之所以说学生的社会经济地位与学生的标准化测验成绩高度相关,主要的原因是标准化成就测验中很多题目考查的都是学校教学之外的内容,而不是学生真正通过课堂掌握的知识和技能。而且,那些考查的内容都是学生在社会经济地位较高的环境下比在社会经济地位较低的环境下更容易习得的。

您又可能会问,为什么国家标准化成就测试的研发人员要设计这种类型的考题呢?和上文我们曾经提到过的一样,这种类型的试题可以使测验更具有普遍意义,而且可以将学生的分数严格控制在预设的得分范围之内,以便我们作出准确的常模参照解释。由于学生的社会经济地位差异很大,而且这种差异不可能在一夜之间消除,所以反映这种差异的测验题目可以使试卷很好地控制得分范围。

综上所述,国家标准化成就测验的三种缺点决定了他们不适合成为评估教师教学的依据。首先,严格地来看,这些测验的内容与各州的课程目标之间不具有较强的一致性。其次,出于控制得分范围的需要,国家标准化成就测试日益严重地暴露出一种消极的倾向——忽视了一些重要的学习内容。最后,因为国家标准化成就测试中很多试题都与学生的社会经济地位和先天学习能力相关,所以这种测验通常衡量的不是学生在学校学到了什么,而是学生在学校之外学到了什么。这三方面的缺点决定了国家标准化成就测验不适宜用于评价教学。接下来,让我们共同学习第二种国家标准化成就测验。

基于标准的评价具有丰富的内涵。这种评价方法要求教育工作者按照内容标准提出自己的课程目标,之后再遵循内容标准建立一个评价方案。如果严格执行这些要求,那么教育工作者就可以通过测验来了解学生已经掌握了内容标准规定的哪些内容,还没有掌握哪些内容。绝大多数基于标准的测验都是各州按照自己的情况自行设计的,这种类型就是我所说的不适宜评价教学的类型。因为大多数这样的测验并没有像鼓吹者所预想的那样,能够刺激教育的调整与改进。我接下来就会向您解释为什么和传统的标准化成就测验一样,各州基于标准的测验也不适宜用来评价教师的教学。但是,虽然这种类型的基于标准的测验不适宜用来评价教师的教学工作,但由于许多州政府官员强令把这些测验作为官方的NCLB测验,这样基于标准的测验就又和教师的工作紧密联系在一起了。因为NCLB法案的精神实质就是要求不断努力提高学生的测验得分,那么NCLB测验很自然就会成为评价教师教学的重要依据。所以我相信您已经认识到,教师们使用这种基于标准的测验是非常“危险”的。那么,接下来,让我们进行详细地解释。

针对当下流行的大多数基于标准的测验,我将详细分析其两方面的缺点。但是,需要排除一个例外,那就是全美上下都使用的基于标准的写作测验。所有基于标准的写作测验不仅适用于评价教师的教学,而且在判断教师是否为学生提供了有效的写作指导方面,这种测验也相当有说服力。然而,这是唯一的例外。下面,就让我们共同分析当下流行的大多数基于标准的测验所具有的缺点吧。

 

庞杂的课程目标

 

第一个缺点源于各州的课程专家通常都会提供纷繁复杂、包罗万象的内容标准。从这个意义上来看,课程专家的确是名副其实的“专家”,他们热爱并致力于发展自己的专业领域。打个比方来说,如果一个州的数学课程专家小组由30名业内资深学者组成,那么可以预测,他们制订的内容标准恐怕会涵盖很多的内容!也就是说,这些数学专家恨不得学生能够掌握该领域中所有的知识。的确,当面对各州数额庞大的数学内容标准时,我们可以深刻地领悟“无穷”这个概念的真正内涵。

针对某一年级的学生,很多州的学科专家都提供了上百条内容标准要求他们掌握;但主管课程的行政官员却常常会选择其中十几条或是几十条作为当年的课程目标来考核。然而,对教师们而言,他们往往需要遵循的并不仅仅是内容标准,还有大量把内容标准细致化、具体化的“基准”或“指标”。这些细化的标准描述,通常意味着在某一年里,教师在教学过程中需要完成大量的课程目标。不仅如此,为了应对基于标准的测验,他们还需要充分考虑到在短短一小时或几小时里哪些课程目标有可能出现在测验中。

在这种情况下,设计基于标准测验的研发人员通常所做的工作就是确定试题样本。换句话说,他们只随机地针对州立内容标准的一部分来展开试卷设计。这使教师们陷入年复一年的恶性循环中,因为任何一年里他们都不得不绞尽脑汁地揣测究竟基于标准的测验会考核哪些内容标准呢?由于课程目标数量巨大,教师在教学中不可能面面俱到,所以一个严重的问题是:很多教师们认为重要的教学问题被研发人员忽视了。这直接导致了教师的教学缺乏针对性,学生在基于标准的测验中自然很难有出色的表现。

在很多情况下,基于标准的测验不可能对一套完整的内容标准进行全面测量,尽管这套内容标准被规定作为测验的依据。而且,即使这些内容标准在测验中得到了反映,也不过是一种象征性的方式。这导致了一种恶性状况的蔓延,如同赌博一样,教师们每年都不得不把教学重点建立在猜测的基础之上。

 

模糊的教学成绩报告

 

假定一个州颁布的内容标准明确了学生应该掌握的知识和技能,那么基于标准的衡量性测验就应该能够为教学提供一份有价值的报告,可以帮助我们了解哪些内容标准得到了很好的落实,哪些还没有得到很好的落实。否则,教师们就没有办法了解自己在教学中应该坚持什么和改变什么。但是非常遗憾,如今大部分基于标准的衡量性测验不能按照评分标准来向学区、学校或是学生个体提供一个清晰的成绩报告。

典型的成绩报告应该能够针对某个具体的学科领域提供详细的分数说明,我们也曾看到有些人试图在这方面进行尝试。以一个学生的阅读分数为例,成绩报告应该能够指出该生是否掌握了小说类文学作品和非小说类文学作品的差异。然而,近来很多基于标准的衡量性测验都不能向教师、学生或是学生家长提供这样的信息。事实上,只有获得了按照基准或是按照标准进行解释的成绩报告,才能够有助于教师作出恰当的教学决策。

通过考查数学测验的总成绩或是几何部分的得分,教师能获得什么有意义的结论呢?如果基于标准的衡量性测验试图帮助教师改进教学工作,这些测验必须向教师提供足够的信息,能使他们明确自己针对哪部分内容的教学是成功的,而哪部分还有待于改进。目前,大多数国内基于标准的测验都做不到这一点。不能向教师提供详细的成绩说明,因此也无法帮助教师改善课堂教学,这是今天基于标准的衡量性测验的第二个缺点。

在举行完衡量性测验之后,教师应该做的事情至少包括:第一,尝试测量更多的课程目标;第二,反思限制教学价值发挥的因素。但事实上,很多教师都不会这么做。因为课程标准庞杂得令人难以把握,加之成绩报告功能失调,所以教师们认为据此改进教学、促进学生进一步掌握知识是不可能的。更可悲的是,教师们对基于标准的衡量性测验表现得很失望,他们在教学上放弃了想要进行深入探究的努力,因为影响学生测验成绩的主要因素不再是教学,而是学生的社会经济地位和天生的学习能力。确切地说,这些基于标准的测验在功能上与传统的标准化测验已毫无区别了。令人遗憾的是,我们实施评价的初衷是希望检测学生是否掌握了关键性的课程目标,但是现在我们却无奈地发现评价工具只能测量学生是带着怎样的背景走进学校的,而不是学生在学校习得了什么。

在基于标准的测验中,有些类型是适宜用来评价教学的,它可以帮助我们确定教学对学生究竟是产生了促进作用,还是产生了阻碍作用。相应地,如果一所学校的教师对学生低水平的阅读能力感到强烈不满,并通过自己的努力成功地提高了这些学生的阅读技能,那么,他们可以采用一些基于标准的测验,来帮助自己检验学生的进步。

当今,不断改善学生学习状况是教师们不得不面对的巨大压力,任何明智的教师都希望能够通过适宜的测验形式来评估自己的教学,而尽量避免从不适宜的测验形式中寻求反馈。基于标准的测验,如果设计得当,是可以用来评价教学的。

要想使基于标准的测验能够有效地服务于评价教学,这些测验必须具备以下三个基本特征:第一,测验所涉及的知识或是(以及)技能目标数量不多、但足够精确,这样教师就不会被繁多的评价目标所压垮。第二,测验所涉及的知识或是(以及)技能目标应该以足够得当的方式呈现,这样教师对学生应该掌握哪些内容就会一目了然。第三,测验的结果必须能够帮助教师判断学生掌握知识和技能的程度如何。如果基于标准的测验不能同时具备这三方面的特征,那么它就不适宜用来评价教学。

 

一系列易于管理的目标

 

如果一个基于标准的测验想要测量40个教学目标,那么绝大多数教师都不可能在教学中有效地落实这么多的目标。以NCLB测验为例,如果该测验声称它将测量大量的内容标准(或是内容基准),那么,这样的测验肯定不适宜用来评价教学。

实事求是地讲,毕竟教师的时间和精力是有限的,他们只能在一定范围内帮助学生准备和应对测验。尤其是对年龄比较小的学生而言,教师在这方面投入的时间会更少。因此,试图在测量中兼顾所有的课程目标,是完全不可能做到的。大家可以设想,即使我们设计的题目针对性很强,那我们也不能只凭借一两道题目就来判断学生对某个课程目标的掌握情况。加之,要测量的课程目标数量繁多,一个简单的测验又怎么能够囊括所有呢?所以,每年基于标准的衡量性考试沦落为了一种概率性游戏。在这个游戏当中,教师常常会出现错误的估计。毫无疑问,一个州的教师如果总是花费巨大的精力揣测评价的内容,那么他们投入在课堂教学活动中的精力肯定会被大大消减,遭遇教学困境也会在所难免。

贯彻落实数目庞大的教学目标,对于绝大多数教师来说,都是一项艰巨的任务。理智地讲,相当一部分教师只能驾驭六七个左右的教学目标,极少有教师能够驾驭六七十个教学目标。一个典型的例子是:声称能驾驭很多目标的教师,实际真正关注的目标也为数不多。一个基于标准的衡量性考试如果想要兼顾众多的课程目标,那么,它们提供给教师进行教学决策的只能是一个不负责任的逻辑框架。

通常情况下,NCLB测验针对的都是州政府批准的课程,这些课程包含了大量的内容标准(基准)。NCLB测验总是想要衡量过多的课程目标,而主要的原因就是课程本身被赋予了太多的目标。但是,各州以NCLB法案为标准自行设计的测验也意在测量大量的课程目标,这是因为各州都错误地构想了很多目标。面对这些数目庞大的目标,教师们不可能都一一落实,因此这种基于标准的测验无法有效地评价教师的教学。

如果只想通过基于标准的衡量性测验来检测少数的课程目标,那么关键性的问题是:您要确保这些课程目标是上位目标,即它们可以继续分解为下位的子知识指标或是(以及)子技能指标。例如,促进学生写作技巧的提高是一个重要的课程目标,它涵盖了两项子技能,即合理地组织内容和适当地设计行文结构。在一个具体的学科领域中,如果一项基于标准的衡量性测验试图评价六个以上的课程目标,那么在数量上已经超出了合理的范围。这种基于标准的测验一定不能用于评价教学。

 

清晰说明评价指标

 

全州范围内流行的所有衡量性测验都旨在评价学生掌握内容标准的情况,这也就是说,衡量性测验中涉及的知识和技能都来自于州政府批准承认的课程目标。但是,很多州制订的内容标准表述模糊。有些州制订的内容标准仅仅提供了一个一般化的描述,例如,关注数学中的“几何”或是阅读中的“推理”。这种一般性的描述只是对一系列具体化“基准”或“指标”的高度概括。

为了验证基于标准的测验目标是否得到了清晰的说明,我们必须把重点放在通常所说的描述“尺度”(即程度)上,依靠这些描述“尺度”,教师才能完成教学目标。所以,一个州的课程目标往往是一般化的标准,即一系列具体化的指标或是基准的集合,但我们需要关注的是对具体指标或基准的描述,而不是笼统的内容标准。所以,我们必须明白虽然课程目标是在一般水平上予以呈现的,但它必须能够概括教师设计教学活动的所有方法。

因此,要保证基于标准的测验能够用来评价教学,评价指标的描述一定要足够清晰,而且要使用教师熟悉的话语去说明评价中涉及的知识和技能。同时,评价指标的描述尽可能力求简洁,要让教师了解自己在教学活动中应该关注哪些问题。此外,一套简明扼要的评价说明,通常还要包含一到两个范例,这是保证基于标准的测验能够用来评价教学的第二个特征。

 

提供可指导教学的成绩报告

 

如果不能很好地解释基于标准的测验的分数结论,那也就不能向教师提供一个有价值的反馈——哪部分教学内容是有效的,哪部分教学内容是无效的,这种测验对教学而言不具备指导性。随着时间的推移,教师将不再使用这类测验作为提高教学的依据。学生也不会从中受益,因为教师不知道自己应该怎样调整和改进教学。基于此,判断基于标准的测验是否适宜于评估教学的第三个因素就是测验结果的呈现方式。

基于标准的测验如果只是针对有限的评价目标(例如,6至8个),那么测验的结果应该能够帮助教师较为容易地判断出学生掌握了哪些目标,还没有掌握哪些目标。为了能够提供可用来指导教学的成绩报告,测验必须针对每个具体的课程目标,提供足够数量的测验题目,尽可能保证使每个课程目标都能够从多个角度得到评价。

理想的情况是:首先,设计出来的测验要适合用来评估教学;其次,评价目标在测验中确实得到了有效测量;再次,成绩报告能够提供充分的信息,可以帮助教师按照每个目标实现的程度来对学生进行定位,且要保证这种定位是准确的、可接受的。进一步讲,之所以要力求“准确性和可接受性”是因为教师需要据此制定新的教学策略。因此,要想使基于标准的评估报告真正服务于教师的教学,那就必须要确保教师及时获得了这些报告。凭借自身的经验,教师们很容易就可以辨别出成绩报告的质量——究竟是过于笼统,还是过于冗繁,抑或是模糊不清。而且,如果成绩报告推论准确、详略得当,既非事无巨细,也非模棱两可,那么这些报告将作为非常有价值的材料提供给学生家长。

综上所述,基于标准的测试必须具备三个基本条件:第一,评价目标的数量要合理,切忌太多;第二,对评价目标要有一番恰当的描述;第三,测试的结果易于指导教学。如果基于标准的测试缺少了三个充分条件的任何一个,这些测试都不宜作为评价教学的依据。毫无疑问,采用不宜于评价教学的测试作为衡量性考试的工具,将有碍于教学水平的提升,有碍于学生的发展,最终有碍于全州的教育质量的改进。相应地,只有宜于评价教学的基于标准的考试才能够对衡量性考试产生重要的影响。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈