首页 理论教育 考试评价技术的发展特征

考试评价技术的发展特征

时间:2022-03-03 理论教育 版权反馈
【摘要】:从现代考试评价的发展趋势来看,考试评价目的的发展性、考试评价手段的真实性、考试评价指标的增值性基本上能够代表当前考试评价的发展方向,对当前考试评价政策的制定富有启示。关于考试评价目的的论争始终不断,最经典的当属形成性评价与总结性评价之争。在考试评价研究中,虽然形成性评价与总结性评价只是种类之别,并无优劣之分,但人们对二者的研究兴趣完全不同。较之形成性评价,发展性评价的主要特征表现在以下四个方面。

第三节 考试评价技术的发展特征

应试教育之所以被讨伐,是因为应试教育意味着“考试考什么学校就教什么”,如此一来,教师和学生就完全跟着考试走,这一方面使得学生的知识面过于狭窄,另一方面容易产生“高分低能”的现象。摒弃应试教育的这种弊端有两种方法。一是学校和教师不要因为考试要考什么就教什么,学校可以大胆地根据学生的能力发展和素质提升来决定教什么,因为从逻辑上讲,只要学生的能力和素质得到发展,自然就会在考试中取得好成绩。二是既然学校、教师和学生都受考试评价制度的约束,那就不能责怪学校和教师按照“考试考什么学校就教什么”的原则行事,这个原则本身没有错,但可以对考试能够考什么进行深入研究。如果考试只能测量学生的知识,则学校和教师自然只愿意教学生知识;如果考试能够测量学生的能力和素质,则学校和教师自然乐于培养学生的能力和素质。第一种方法要求学校和教师脱离考试来驾驭考试,学校和教师既需要有足够的勇气,更需要有足够的智慧,因为脱离考试来应对考试的风险很大,所以,虽然主张教师用教育教学来驾驭考试,但结果是,教师和学生往往不得不被各种各样的考试所驾驭。

我们对学校和教师如何驾驭考试有很多要求,而对考试评价技术如何回归考察能力与素质的要求和探讨却很少。我国是最早提出用考试的方法来选拔人才的,但对如何运用考试技术来选拔人才的研究逊于发达国家,也就是说我们比别人更习惯于用考试来选拔人才,但我们使用的考试评价技术远逊色于他人,这就不难理解为什么我们的考试评价总是在约束学生能力与素质的提高,而难以成为一种提高学生能力与素质的教育手段。正如布卢姆(Benjamin S.Bloom)早在1981年批评美国教育评价现状时所言,“评价的目的,像现有的教育系统最常用的那样,基本上是把学生分等与分类。它被用来区分失败的(D或F等)学生、成功的(A或B等)学生以及过得去的(C等)学生。学校内通常使用的测试以及其他形式的评价,对于改进教学作用甚微,而且难以确保所有(或几乎所有)学生去学会那些被学校认为是重要的任务,达到教育过程的终极目标”。[22]对教育评价政策来讲,在使用考试评价技术手段的同时,必须正确审视考试评价技术的发展,全面认识和接纳考试评价技术的不同派别,推动考试评价技术的进步,只有这样才可能真正有效地实现教育评价的政策功能。从现代考试评价的发展趋势来看,考试评价目的的发展性、考试评价手段的真实性、考试评价指标的增值性基本上能够代表当前考试评价的发展方向,对当前考试评价政策的制定富有启示。

一、考试评价目的的发展性

关于考试评价目的的论争始终不断,最经典的当属形成性评价与总结性评价之争。形成性评价是通过对教育方案或计划的评估,诊断教育过程与教育活动中存在的问题,考量学生的学习过程与结果,为后续的教育方案和学习活动提供反馈信息,以提高教育实践中教育活动质量的评价方式;总结性评价则是在教育活动发生后,对教育活动产生的效果给予的判断。相对而言,形成性评价不以区分评价对象的优良程度为目的,不重视对被评对象进行分等鉴定;而总结性评价总是要在对教育效果进行判断的基础上产生一定的外在的评价结果,比如对学生进行等第区分,对学生予以录取或者不予录取等。总之,形成性评价是以教育过程和学习过程作为评价对象,评价的目的是让学生在考试评价中更好地达成目标;总结性评价则以教育效果和学习结果作为评价对象,评价的目的是判断学生在考试评价中是否达成了目标,并由此判断学生适合在什么样的难度下学习,甚至由此判断学生是否适合继续学习。既然二者的评价对象不同、评价目的不同,那就只能说明这两种评价本身并没有好与坏之分,只是适用的条件和目的不同而已。将形成性评价用于等第判断,它就不是一种好的评价方式;将总结性评价用于教育过程,同样不会有良好的教育成效。

在考试评价研究中,虽然形成性评价与总结性评价只是种类之别,并无优劣之分,但人们对二者的研究兴趣完全不同。尽管形成性评价更有利于教学质量和学业成绩的提升,但由于它是内在的教育手段,很难吸引足够的资源来深化对它的研究;尽管总结性评价只是对教育效果和学习结果进行事实性判断,但由于在判断的基础上会产生不同的评价结果,所以人们更容易把注意力集中在更具功利性的总结性评价上。正是基于这种差异,人们对考试评价形成了只有总结性而没有发展性的印象。事实上,当我们只关注总结性评价而忽视形成性评价时,教育中也会出现相应的现象。由于形成性评价是在教育过程中发挥作用,而其在教育过程中发挥作用的程度仍需要通过总结性评价进行最终的评判,因此学校教育过程中,学校和教师就很少使用形成性评价,而是直接将总结性评价引入教育教学过程,这使得学校没有阶段性的形成性评价,却有阶段性的总结性评价,从而加剧了学校教育的功利和短视。总结性评价似乎总是难以给人好印象,原因在于人们不喜欢教育教学过程中的总结性评价;但我们又不得不走近总结性评价,因为每个人都期待在教育教学结果的总结性评价中取得优异成绩,并以此换来相应的教育资源或社会报偿。

正是在这样的背景下,考试评价的研究转向如何促进学生的发展。在布卢姆的理解中,考试评价并不是目的,它本身就是一种教育手段,因此他在与同伴合著的《教育评价》中明确提出,“本书旨在提出对评价及其在教育中的地位的一种更加广泛的看法。我们主要关心的是用它来改进教与学”,[23]而这本书的英文书名直译为《为改善学习而评价》,这样的理念中潜藏了发展性评价的评价思想。发展性评价是20世纪80年代以后真正发展起来的一种关于考试评价的理念,主要是基于对学生或教师现实状态与评价结果的比较,对学生或教师的发展水平、发展潜力作出综合性的和质性的评价,从而为学生或教师的发展路径提出合理化建议,真正起到促进学生或教师可持续发展的目的。发展性评价在本质上并没有超越以往的形成性评价,但在手段上比形成性评价准备得更加充分。

较之形成性评价,发展性评价的主要特征表现在以下四个方面。其一,发展性评价更加关注对被评价者评价信息的全面收集和科学分析。发展性评价并不是对教育效果和学习成果的简单判断,而是对教育效果和学习成果形成过程的科学分析,这点更富有教育意义。可以说,发展性评价并不是一个评价的过程,而是对被评价者的教育过程和学习过程进行科学分析的过程,以便帮助被评价者在后续的考试评价中获得更好的教育效果和学习成果。其二,发展性评价更关注被评价者的个体差异。传统的考试评价,不管是形成性评价还是总结性评价,都将被评价者置于群体共性之中,通过比较的方式来判断被评价者的教育成效与学习成果;而发展性评价更关注被评价者在群体中的个体特征,并根据被评价者的个体特征来分析其在群体中的发展潜能和发展途径。其三,发展性评价更关注评价方法的多元化和评价结果表现形式的多样化。被评价者的发展受多种因素影响,被评价者的发展表现也是各种各样,这就意味着采用单一的评价方法既无法发现影响被评价者的多种因素,也难以全面揭示被评价者在发展过程中所取得的各种成果,因此,丰富评价方法是拓展考试评价的重要手段。与评价方法的多元化相对应,考试评价不一定要以数字为唯一的表现形式,这反而会让考试评价受制于数字而失去对被评价者可持续发展的支持。其四,发展性评价提倡评价主体的多方参与。形成性评价和总结性评价总是假设评价过程中评价者和被评价者的唯一性,尤其是评价者的唯一性,似乎只有唯一的评价主体才能够确保评价本身的权威性。但是对于发展性评价来说,评价本身是促进被评价者发展的一种手段,它所依赖的是评价本身的科学性而非权威性,当评价主体被局限在一定的范围时,也就意味着针对被评价者的科学视角更少了,这样反而不利于对被评价者全面的和多方的认识;而且,对被评价者来说,有了多元评价主体,也就有机会获得更多的科学建议,这对被评价者自身的发展来说是一件好事。

二、考试评价手段的真实性

考试评价是一项非常专业的工作,其专业性有两层含义:一是考试需要专门的准备与设计;二是考试并不是一件生活化的事,而是科学化的事。在没有考试之前,我们可以认为某人有学问有能力,但说不清楚其学问和能力表现在哪些方面、达到何种水平,更无法将其学问和能力与其他人进行比较,即便比较,也是人与人之间的整体比较,而不会具体到特定的学问和能力的比较。然而有了考试评价,就可以运用专门手段,将人的知识和能力予以量化,并进行比较。

既然考试评价是一项专业化的工作,就意味着考试评价很难用直接的方法来量度具体的教学效果和学习结果。一则因为考试评价需要把实际的教学效果和学习结果做技术上的转化,于是在考试评价中经常出现“所问非所测”或者“所测非所问”的现象;二则如果考试评价采用直接的方式方法来度量考生,那么考生肯定会用更直接的方式方法来准备这类考试评价,于是这样的考试评价就会因为学生的刻意准备而失去真实评价学生的功能。“在大部分教育和心理测验中,我们看到的很多行为都不是我们想要测验的内容。我们所看到的历史试卷中的多项选择题要求考生在代表最佳答案的字母上画一个圈。根据学生选择正确答案的多少来判断学习的程度怎样。换句话说,这种评价方法对学习的评价是间接的,是从学生测验时的行为推断而来的。”[24]因此,当考试评价结果出来之后,考生往往并不清楚自己究竟哪里做对了,哪里做错了,而只知道自己得了多少分,和其他同学相比这个分数是高了还是低了。要想使考试评价真正对教师的教学效果和学生的学习成果产生影响,就必须使考试评价手段变得真实,使考试评价的结果与教育教学实践具有对应性。

真实性评价由美国教育专家温格斯(Grant Wiggins)于1989年首先提出,美国教育评价专家穆勒(Joe Mueler)等人在教育实践中予以尝试、丰富并加以完善。穆勒认为,真实性评价是检验学生学习成效的一种评价方式,要求学生运用所学的知识和技能去完成真实世界或模拟真实世界中一项有意义的任务,用以考查学生对知识与技能的掌握程度,以及学生在具体的实践活动中解决问题、交流合作和批判性思维等多种复杂能力和实践能力的发展状态。“‘真实性评价’这个术语是特别针对评价任务的复杂程度(如学生必须从不同的视角考虑问题)、学生的独立程度(如学生可以自由地收集资料)、资源的可利用程度(如学生是否能从互联网上查阅资料或从专家那里得到指导),以及真实生活中完成任务的条件(如学生必须在一定的期限内完成任务)等而言的。”[25]真实性评价以表现性评价和档案袋评价为代表,表现性评价着力于对被评价者完成一项任务或者在一个时间段的实践能力的评价,档案袋评价着力于对被评价者一系列的或者一个时期的实践能力的评价。

表现性评价是对教师教学和学生学习过程的直接测量,与传统的考试评价的间接性相对。传统的考试评价必须借助一些题目来间接地透视学生的学习能力,表现性评价则直接设计一个学习情境,布置给学生一项具体的学习任务,然后通过分析学生为完成学习任务制订的方案是否科学,看学生为完成学习任务采取的方法与流程是否妥当,还包括最后检验学生完成学习任务的状况。当然,表现性评价并不是简单地仅仅看被评价者如何行动,还需要评价者预先确定希望通过表现性评价来量度被评价者哪些方面的知识、技能或能力,需要对被评价者在完成任务的过程中给予什么样的指导,最后还要对整个任务的完成过程和完成效果进行科学分析。相信这个过程的科学化程度不会比传统的考试评价过程简单。表现性评价最大的益处在于能让被评价者表现出对某一项学习任务的深刻理解和创造性解决问题的能力。档案袋评价或成长记录袋评价不是一次性反映被评价者的成就水平和实践能力,其主要目的是反映被评价者的知识掌握或问题解决能力在长时期内的变化和成就。表现性评价根据被评价者在教学过程或学习过程中的实际表现进行评定;档案袋评价主要根据被评价者在一定时期内的教学与学习的痕迹或结果进行评定。

虽然考试评价手段的真实性是一种趋势,但它并不是对传统的考试评价模式的替代,确切地说是一种补充。传统的考试评价更适合对一些难以观察的知识与能力进行量度,正因为这些知识与能力难以观察,所以不适合运用真实性评价,而传统的考试评价的间接性恰好可以发挥功能,从这个意义上看,传统的考试评价也是对真实性评价的补充。同样,对于那些可以通过观察、体验、感悟进行量度的知识与能力,如果还运用传统的考试评价手段来量度,不但浪费评价资源,而且其评价结果不一定具有真实性。更令人担忧的是,对于通过观察、体验、感语就可进行量度的知识与能力,如果不运用传统的考试评价就无法被认可,则更是一个因为评价而被歪曲或者否定的悲剧。

三、考试评价指标的增值性

考试评价是对被评价者已经拥有的知识或能力的量度,因此,考试结果往往是被认同的,但评价的结果未必能得到认可。考试只是负责对被评价者已经拥有的知识或能力进行客观量度,比如某同学在某次学科考试中获得80分,但这个80分究竟能够代表什么?这就不是考试所能回答得了的,而需要评价给出结果。如果班级平均分是85分,那么80分就显示该学生学得不够好或者不够认真;但如果班级平均分是75分,那么这个80分至少可以说明该学生比班上多数同学学得好或者更认真。通过考试成绩对学生的聪明程度或学习态度进行评价看似合理,但这样的评价结果有什么教育意义呢?通过这样的评价能够预测该学生在下一次考试中是得85分还是75分?传统的考试评价无法得出这样的结论。作为评价指标的考试成绩,其本身并不具有增值性,也就是说,并不是学生的考试成绩越高就证明学生获得考试成绩的能力越强。有的学生虽然考试成绩不错,但可能是涸泽而渔得来的,这样的考试成绩并不具有可持续性;而有的学生虽然考试成绩不怎么样,但可能是不够努力,并不能证明其获得考试成绩的能力或者方法有问题。正因为如此,今天的考试评价除了关注具有事实性的评价指标之外,开始关心和设计具有增值性的评价指标。

在美国,虽然有全国统一的学生“学术性向测验”(SAT),但学生获得的成绩与是否能被高校录取并不具有直接的因果关系。美国绝大多数社区学院和部分州立大学并不需要申请者的SAT成绩就可以录取申请者;美国的知名私立大学和优质州立大学并不将SAT成绩作为唯一入学条件,即便申请者的SAT成绩再优秀,大学也不可能仅仅据此就相信该成绩具有增值性。优秀的大学看重的不仅是申请者在学术性向测验中取得了好成绩,它们还需要知道申请者是在什么样的环境中用什么样的方法来获得这个成绩的,因为只有将学术性向测验成绩置于具体的环境和方法之中,才能判断申请者获得的成绩是否具有增值性。这就不难理解为什么美国优秀的大学不但要看申请者的学术性向测验成绩,还需要申请者提供高中成绩,提供中学校长或教师的推荐信函,提供申请者的研究论文或自传,甚至还包括申请者的兴趣和爱好等。它们并不一定对申请者的兴趣和爱好感兴趣,而是相信如果一个取得出色成绩的申请者还有着广泛的兴趣和爱好,还积极参与社区活动,还能够做出一定研究成果,那么该申请者一定能取得更出色的成绩。不仅是美国,英国、日本、德国等国家优质高校的招录标准都很看重学生评价指标的增值意义。

随着对考试评价认识的深入,国内的相关考试也在不断提高考试评价成绩的增值性,从而尽可能避免出现“高分低能”的现象。比如在具体的试卷中,逐步降低死记硬背题目所占的比例,增加需要学生思考和接触生活实际的试题,引导学生在知识学习的过程中,更主动地理解和思考知识,而不是简单地背诵知识。同时,在各种升学考试中,尤其是在高校自主招生的考试中,加大对学生进行面试的比例,当考官有机会与学生面对面时,考官就能了解学生掌握知识的深度,据此评估学生的学习潜力。

【注释】

[1]孙培青,等.中国考试通史(卷一)[M].北京:首都师范大学出版社,2004:总序7.

[2]刘海峰,等.中国考试发展史[M].武汉:华中师范大学出版社,2002:7.

[3]史记·五帝本纪第一.

[4]孙培青,等.中国考试通史(卷一)[M].北京:首都师范大学出版社,2004:总序3.

[5]同上:101.

[6]孙培青,等.中国考试通史(卷一)[M].北京:首都师范大学出版社,2004:101.

[7]同上:总序3.

[8]孙培青,等.中国考试通史(卷一)[M].北京:首都师范大学出版社,2004:318.

[9]同上:318.

[10]王奇生.中国考试通史(卷四)[M].北京:首都师范大学出版社,2004:4.

[11]罗立祝.高校招生考试政策研究[M].武汉:华中师范大学出版社,2007:96.

[12]罗立祝.高校招生考试政策研究[M].武汉:华中师范大学出版社,2007:85.

[13]罗立祝.高校招生考试政策研究[M].武汉:华中师范大学出版社,2007:103.

[14]吴中伦,等.当今美国教育概览[M].郑州:河南教育出版社,1994:123.

[15]罗立祝.高校招生考试政策研究[M].武汉:华中师范大学出版社,2007:67.

[16]杨思凡.国外高考改革趋势:比较与启示[J].世界教育信息,2006(5).

[17]韩家勋,孙玲.中等教育考试制度比较研究[M].北京:人民教育出版社,1999:280.

[18]唐滢.美国高等院校招生考试制度研究[D].厦门:厦门大学教育研究院,2005:74.

[19][美]亨利·罗索夫斯基.美国校园文化[M].谢宗仙,等,译.济南:山东人民出版社,2000:267.

[20]罗立祝.高校招生考试政策研究[M].武汉:华中师范大学出版社,2007:100.

[21]同上:68.

[22][美]B.S.布卢姆,等.教育评价[M].邱渊,等,译.上海:华东师范大学出版社,1987:4—5.

[23][美]B.S.布卢姆,等.教育评价[M].邱渊,等,译.上海:华东师范大学出版社,1987:5.

[24][美]Gary D.Borich&Martin L.Tombari.中小学教育评价[M].国家基础教育改革“促进教师发展与学生成长的评价研究”项目组,译.北京:中国轻工业出版社,2004:180.

[25][美]Gary D.Borich&Martin L.Tombari.中小学教育评价[M].国家基础教育改革“促进教师发展与学生成长的评价研究”项目组,译.北京:中国轻工业出版社,2004:183.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈