首页 理论教育 前三代教育评价理论及其特点

前三代教育评价理论及其特点

时间:2022-03-07 理论教育 版权反馈
【摘要】:教育评价理论的发展如何分段本身是一个很有争议的问题。他们描述了从第一代到第四代评价理论的发展。早期影响评价的主要因素是对中小学生特征的测量。以学生的测验分数作为评价学校及教学方案的主要数据来源。第二代评价的产生源于第一代评价的不足。

第一节 历史视角:前三代教育评价理论及其特点

教育评价理论的发展如何分段本身是一个很有争议的问题。20世纪80年代末,著名评价专家枯巴和林肯(Egon G.Guba and Yvonna S. Lincoln)合作撰写出版了《第四代评价》(Fourth Generation Evaluation)一书,提出了第四代评价理论的构架。按照枯巴和林肯的解释,从历史上看,不同时代人们对“评价”的理解和认识是不同的,他们把教育评价划分成四个发展阶段,认为每一阶段各代表对“评价”的一种理论建构。他们描述了从第一代到第四代评价理论的发展。

在第四代评价理论提出之前,教育评价已经经历了三种理论形态,枯巴和林肯称之为“前三代教育评价理论”。

一、第一代评价:测量[1](19世纪末到20世纪30年代)

第一代评价理论盛行于19世纪末至20世纪30年代的测验时期,其标志是“测量”理论的形成和测验技术的大量实际运用。

早期影响评价的主要因素是对中小学生特征的测量。学校用考试来检验学生是否掌握了各种课程提供的内容,实质上是对学生记忆力的考察。最早的学校考试是以口头的形式进行的。鉴于学生日益增多,口试会造成行政上的不便;同时也因为不能标准化,这种考试形式容易对学生产生不公平。于是小论文笔试取代了口试,要求一个学生在特定时间,写下“短文型”的答案。以学生的测验分数作为评价学校及教学方案的主要数据来源。

西方第一本关于教育研究的作品《拼写训练的无用论》(1897年,赖斯(Rice))出版时,即是将考试分数作为其数据的来源。其作者赖斯认为,如果能在基础学习上花较少的时间,那么课程就能扩展到艺术、音乐等其他学科。赖斯对拼音教学训练的价值进行了一种跨学区的比较研究。他设计了一种拼写测试并在美国的许多学校广泛地应用,他还收集关于拼写教学所花时间的数据。他随后的分析表明,在拼写学习上花费的时间与考试成绩之间并无实质上的联系。

另一个测试的应用发生在法国。当时,法国教育部长苦恼于教师们要求找出一种方法筛选出智力发育滞后的孩子,因为这些学生无法用正常的教学手段来进行教育。他求教于法国的心理学家阿尔弗雷德·比奈(Alfred Binet),希望他设计一种相应的测试。比奈起初用的是心理测量学的方法,英国的弗朗西斯·高尔顿(Francis Galton)和德国的威尔海姆·冯特(Wilhelm Wundt)在各自的国家都成功地应用过该方法。但是比奈在法国的实验却没有成功。他又设计了一种基于常识考察的观察的方法,考察的常识是智力发育滞后的学生不能处理简单生活方面的问题,如数钱和辨别家具等。比奈根据考察个体的年龄来进行测试,最终设计了一种新的研究,并且最终成功完成了。“心理年龄”这一新的术语,也由此产生。1910年,比奈测验被引进到美国。到了1912年,根据实际智力年龄来划分心理年龄就可决定“智商”已成为通用的方法。1916年,路易斯·特曼(Louis Terman)又对其进行了修正,以应用在美国的学生中。同时美国的桑代克也出版了《心理及社会测量理论》。现在这种模式叫斯坦福—比奈(Stanford-Binet)测试。自此,IQ(智商)测试就成为了美国教育体系的重要部分。

这种测试在学校中的成功运用很快被美国官方所认可。国家教育协会成立一个委员会来研究运用这种测试来对孩子进行区分,并测定他们的进步程度;到1911年为止,教育协会又成立了另外三个委员会加入这项研究。

这一时期,促使心理测验得到快速发展和认同的最重要的影响因素是,第一次世界大战中,它成为筛选合格人选进入军队的工具。军方寻求美国心理协会的支持,要求他们设计一种合适的测量工具。美国心理协会受命成立了委员会,心理学家们很快就完成了任务。第一次的群体智力测验就成功地测验了200多万人。受此鼓舞,智力测验经过修订和改进应用在了学校教育中。

在对第一代评价的发展中,有以下几种因素对其产生、发展起了举足轻重的作用。第一个背景因素是社会科学的蓬勃发展而提出的合理性问题。1873年,英国的遗传学家、心理学家高尔顿(Galton)建立了世界上第一个心理测量实验室。到了1879年,冯特(Wundt)也建立了这样的实验室。心理学开始与科学方法相结合,并逐步争取与物理学有同等的地位。当然,较好地实施这种想法还有赖于对测试结果进行精确的定量测量。到了20世纪20年代中期,罗纳德·费舍尔(Ronald Fisher)已经设计出一种可用来解释社会科学研究结果的基本的数据分析工具和数学表格。社会科学领域,包括教育学,紧随着自然科学的足迹,逐渐成为他们热切渴望的硬科学的一个组成部分。

其次是工厂和企业中的科学管理运动的产生刺激了考试的推广。科学管理运动产生于第一次世界大战前,到了20年代已经逐步推广起来。科学管理运动强调系统化、标准化,最重要的是强调效率。科学管理的观念也渗透到学校中,并成为一种强大的力量。在学校这个“工厂”中,学生被当做待“加工”的“原材料”对待,由学校的“管理者”主管。在这个比喻中,考试起到了关键的作用,它被当做检验学生是否符合学校所制定标准的工具。从其本质上说,这一标准主要是为当时升入大学作准备。

上述因素对学校考试的推动在20世纪20年代到30年代之间达到了顶峰。这一时期,“测量”和“评价”这两个概念常常是互换使用的。虽然“测量”早于“评价”产生。

总之,第一代评价又被称作“测量时代”(measurement generation)。评价者的角色是测量技术员的工作,选择测量工具,组织测量,提供测量数据。学校被视为“工厂”,学生被视作“原料”与“产品”。他们像对待工厂产品质量规格一样,严格地测定学生的各种心理品质,并给予精确的指标。学校是否成功,教师工作成效如何,学生是否成才,一切似乎都可以通过“测试”来检验。[2]如果工具不合适,评价专家就会开发出新的工具。

二、第二代评价:描述[3](20世纪30年代到50年代后期)

第二代评价理论盛行于20世纪30年代到50年代后期,是随着“八年教育研究”而兴起的,以泰勒模式为代表,其特点是描述教育结果与教育目标的一致程度,对“测验结果”作“描述”,是以“描述”为标志的评价时代(description generation)。

第二代评价的产生源于第一代评价的不足。第一次世界大战后,学校的课程设置有了很大的变化,第一代评价将学生作为评价的对象,这样的评价方法除了提供一些有关学生的测量数据外,已经不能满足当时教育发展的现实需要。

战后不久,美国的二级学校开始吸收那些只接受过初等教育的学生。那种服务于应试和升学教育的课程已无法满足这些学生的需要,他们中的很多人将二级学校视作获得所需技能、以此来超越父辈社会经济地位的机遇,但学校无法提供这种教学。而且,设计更加合适课程的努力也在试用之前注定要失败,因为二级学校被卡内基学分制(它规定了毕业所需学分的类型和数量)严格地限制着。改革的主要障碍在于卡内基学分制是二级学校信誉的基础,大学和学院也在担忧一旦卡内基学分制被废除,他们将不得不接受那些不能适应大学标准课程的高中毕业生。于是原有的中学教育目标、课程、评价标准都受到前所未有的挑战。人们必须回答,中学除了学术性课程是否还应增加其他课程,增加了其他课程是否会降低中学教育质量等。

于是,1933年,著名的“八年研究”在拉尔夫·泰勒(Ralph.W.Tyler)等人的带领下开始,它致力于研究课程的有效性,由美国进步教育协会主持;它试图通过一大批大中学校的合作试验来回答上述问题。30所公立和私立中学被允许发展更具特色和有针对性的课程,他们的毕业生无需达到卡内基学分制的标准即可升入大学。“八年研究”的目的就在于证明那些接受非正统课程教育的学生在大学中也能够成功完成学业。这八年的时间可以允许至少一大批这样的学生完成四年的二级学校学习和四年的大学学习。

此时就需要设计一种评价新课程的发展是否达到预定目标的方法。如果学生在大学中的学业不佳并不是因为课程在原则设计上不合适,仅仅因为实践中运行的不充分,那也是个不好的测试。俄亥俄州立大学(即八年研究总部所在地)教育研究所的泰勒和同事们几年来一直在努力开发这样一种测试,以此检验学生是否达到了教授们的要求内容。这些期望学生达到的学习成果被称为目标。泰勒也在八年研究项目的中学中从事着同样的研究。与第一代评价(测量)所不同的是,此时评价的重点由对人的测量转移到对项目或策略的有效性进行研究,项目评价由此产生了。

当参与八年研究项目的中学开始设计他们的新课程时,泰勒立足于目标,对其进行操作化定义,收集了大量他们所观察学生的信息,这些信息可以用来描述目标的达成情况,并根据这些信息及优缺点的分析来指导课程的修正及完善,这一过程我们今天称之为“形成性评价”。它反复进行,直到课程改革取得令人满意的成果。泰勒不仅论证了“八年研究”的巨大成果,而且指出:评价应该是一个过程,而不仅是几个测验。评价过程中不仅要报告学生的成绩,更要描述教育目标与教育结果的一致程度,从而发现问题,改进课程教材和教育教学方案。

这样,第二代评价出现了,它以描述为特征,对目标的优点和不足进行描述。评价者的角色是描述者,也延续了技术员的角色。不过,测量已不再被视为等同于评价,而只是可供使用的工具之一。1942年,“八年研究”的成果出版了,它引起了广泛的关注,泰勒后来被称作“评价之父”。泰勒的成就和观点整整影响了一代人,在评价领域产生了巨大影响,形成了一个以“描述”为标志的评价时代。

三、第三代评价:判断[4](20世纪50年代后期至70年代末)

第三代评价发端于1957年美国因苏联人造卫星上天而发动的教育改革。其特点是不仅限于描述,而且对教育教学方案的优点和价值进行判断。

1957年,俄国人在航天探索上率先取得突破,发射了人造卫星。公众认为导致苏联超越美国的原因在于美国教育的缺陷。美国国家科学基金会和教育部为此启动了课程改进项目。一些评价专家被委派参与到项目中,他们坚持认为,如果没有适切的目标,他们将无法开展工作,他们就会被项目的负责人(早期科学基金会的负责人是物理学家、化学家、生物学家和数学家等,而不是科学教育家和数学教育家)当做无用的人而排除在项目之外。科学家们担心束缚在承诺的目标上,在清楚了解他们从事的工作之前,他们不愿定下不切实际的暂时性目标,以免最后陷入不能实现目标的尴尬境地。他们无法容忍那种直到项目完全开展后才产生结果的评价方法,因为那时如果发现评价在很多方面存在不足为时已晚。这些问题在克龙巴赫的“通过评价来改进课程”中有很好的阐述。

第二代评价的本质是描述,第二代评价的典型代表——泰勒模式,忽视了评价中的判断因素。罗伯特·斯达克(Robert Stake)在《评价的另一面:判断》(1967)一书中写到:“评价专家所关注的评价的另一面与教育家所关注的不同。评价专家将自己视作描述者,描述一些评价对象的能力倾向、环境和成绩。教师和学校管理人员却希望评价者能给予评价对象以优劣的判断,根据绩效来划分人或事务的等级。此外,他们还希望评价者能根据几乎与地方学校资源无关的标准进行判断,而不是外在的标准。描述和判断都是必需的,它们是评价活动的两个基本行为。”

评价行为中“判断”的出现,标志着第三代评价的产生,它以做出价值判断为特点。评价者担任“法官”的角色,并保留着早期测量员和描述者的身份。此代评价致力于解决早期评价中出现的问题。评价人员开始关注下列问题,首先,对已经确定的目标本身是否需要评价,是否需要判断?其次,判断是否应成为评价的一项基本活动?判断是否需要标准,如需要标准,是否能建立科学、客观的“价值中立”的判断标准?最后,如果要做价值判断,必须要有判断者,评价者是否能成为“最客观的判断者”?评价者被看成是最有能力、也能最可信地做出判断的人,因为在所有可能的评判候选人中,评价者毫无疑问是最客观的。

1967年之后,一大批反映着各自观念的评价模式在改革和辩论中诞生了:新泰勒模式包括斯达克的全貌评价模式(1967)和差异评价模式(Provus,1971);决策导向模式如CIPP模式(Stufflebeam,1971);以效果为导向的模式如目标游离模式(Scriven,1973);以社会实验方法出现的新测量模式(Boruch,1974;Campbell,1969;Rivlin&Timpane,1975;Rossi&Williams,1972);以及直接指向判断的模式,如鉴赏家模式(Eisner,1979)。这些1967年后出现的评价模式都强调一点:以一种方式做出判断,判断是评价不可或缺的一部分。这些模式都明确表示评价者就是“评判员”。但在什么样的评价者适合做“评判员”的问题上,各方意见不一。决策导向模式的支持者倡导暂定的判断者角色(他们的倡导者在是否支持积极的判断者方面有所犹豫,因为通过决策模式,评价所服务的决策者表面上却成为判断者指派的);差异评价模式倡导者发现评价者的角色就是帮助委托人确定判断的标准;鉴赏者模式则完全支持评价专家作为判断者角色的出现,因为他们认为被挑选的评价者具有特殊的专家技术和资格条件。

总之,在1967年后的十多年内,判断成为了第三代评价的特点。评价者的责任不仅要运用一定测量手段去收集各种参数,而且还要帮助制定一定的判断标准与目标。这个时期在评价史上被称为“判断时代”(judgment generation)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈