首页 理论教育 教育测量与评价理论的发展

教育测量与评价理论的发展

时间:2022-03-29 理论教育 版权反馈
【摘要】:[5]同时,测量技术的发展,为更复杂认知结构的量化描述提供了更有利的工具,如IRT。IRT在改进CTT的同时,其本身发展为多种模型,如双参数模型、三参数模型、多面模型等。结合计算机技术的发展,目前该理论在PISA、 TIMSS等国际大规模测评中已成为测评设计、试题分析、题库建设及标准设定等的理论依据。任何一个教育测量,往往有两个主要指标对测量结果进行衡量,并以此对该测量的质量进行评估。
教育测量与评价理论的发展_国际视野下大规模数学测评研究

1905年,法国测量学者比奈(A.Binet)和西蒙(T.Simon)开发了第一份用于测评人类智力的测验:比西量表(Binet-Simon Intelligence Scale)。可以说这是客观化心理测验的开始,其他著名的心理测验也随之相继发表,为心理计量学拉开了发展的序幕,也为测量科学化、系统化及量化的研究开启了序幕。[1]

在教育上,测量的概念来源于心理测试和行为主义传统,它认为每个重要的教育成果都可以被测量。[2]具体而言,教育测量是根据一定的法则,用数字对教育效果或过程加以确定。作为一个更确切的定义,洛德(F.M.Lord)和诺瓦克(M.R.Novick)将其描述为“假定理论概念的期望值是单调增加的,则可观察到一个度量叫作这个理论概念的测量。”[3]

教育测量的发展,受到心理学、信息技术、统计学的影响甚多。如随着认知心理学理论成为心理学的发展主流,以信息处理模式观点来探索人类的学习、问题解决与认知过程等问题,对测量和评价的理念及工具编制都产生了巨大而深远的影响。又如哈佛大学学者加德纳(H.Gardner)提出的多元智力理论(Multiple Intelligence Theory,简称MIT),以及相关学者戈尔曼(D.Goleman)和斯腾伯格(R.J.Sternberg)涉及智力的论文[4]让测量和评价学界以人的全面性(whole person)和终身学习(lifetime learning)为出发点,将智力视为适应、选择及塑造任何环境背景所必备的各种心智能力。基于此,人在各种环境下所具有的各种心智能力,也成为测量和评价的关注领域和重要课题。[5]

同时,测量技术的发展,为更复杂认知结构的量化描述提供了更有利的工具,如IRT。IRT在20世纪70年代形成,它以测验项目/试题作为研究或建模对象,并以此为基础,研究分析单个项目/试题跟其所在的测验整体之间的关系。简单来说,IRT就是建立一个函数,用来描述和刻画试题成功完成的概率与试题相关特征(如难度)、测试者的潜质(如能力)之间的关系,单维情况下的表达式如下:

其中,P表示试题成功完成的概率,θ表示测试者的某一潜质(如能力等),δ表示试题的难度。从表达式可以得到,当θ=δ,即测试者的能力与试题的难度相当时,该测试者成功完成该试题的概率为0.5。当测试者能力超过试题难度时,相应成功完成试题的概率超过0.5。这里隐含的一个非常重要的核心思想,就是将测试者的能力与试题的难度建立在同一个测量量尺上。该理论最大的好处就是,无论试题的难度还是测试者的能力估计,在一定假设前提下,不同测试群体在统计意义上无显著性差异,这是经典测量理论(Classical Test Theory,简称CTT)所欠缺的。这不仅能够帮助预测测试者答题的成功概率,而且为衡量测试者潜质(如能力等)大小和试题难度提供了一个非常好的途径或方法。

由于测试者的潜质对应变量(简称潜变量)往往是测评目标所对应的维度,以及IRT模型中测试群体潜质和试题难度等参数在统计意义上的不变性,该测量模型的使用不仅为建立测量目标中不同维度上的量尺提供了工具,而且为测量目标中不同维度与学生的实际表现两者之间的联系建立了沟通的平台。基于学生实际表现和试题难度,为分析、解释学生在某潜质上的描述(如能力表现),奠定了扎实的测量基础。从基于证据推断的角度,将学生的实际表现作为证据,整合集中体现测量目标中的相关潜质,建立了概率意义上的推断。

IRT在改进CTT的同时,其本身发展为多种模型,如双参数模型、三参数模型、多面模型等。结合计算机技术的发展,目前该理论在PISA、 TIMSS等国际大规模测评中已成为测评设计、试题分析、题库建设及标准设定等的理论依据。同时,结构方程模型(Structural Equation Modeling,简称SEM)从传统的多变量统计学(multivariate statistics)领域独立出来,成为一种编制新测评与建立新测量理论不可或缺的统计理论与方法学依据。

教育测量理论一般理解为以现代教育学、心理学和统计学为基础,运用各种测试方法和手段,运用计算机技术及相关的技术方法,对教育现状、教育效果、学业成就及能力、品格、学术能力倾向等方面进行科学测定的理论。任何一个教育测量,往往有两个主要指标对测量结果进行衡量,并以此对该测量的质量进行评估。其一为信度,指的是测量结果的可靠程度;其二为效度,指的是测量结果的有效程度。测量的有效性可以保证测量的可靠性,反之却不一定成立,即测量的效度是信度的充分非必要条件。

从学科本质上,测量工具的编制、测量结果分数特征的分析、测量工具及结果分数的科学使用可构成教育测量理论的基本框架。为保证测量的有效性和可靠性,在测量的编制过程中,如测量目标、内容、测量设计、技术分析等若干环节方面,必须予以足够的重视和有效保证。同时,要对不同题型的功能和不同题型的编制技术有充分认识,甚至借助测量模型及定量技术,对题目的各项指标(难度、区分度等)加以控制。

上述这些因素,在测量工具形成的过程中,时刻制约和规范着相关程序和工作设计。因此,在本书中对于国际大规模数学测评细节,如目标分析框架设计、内容分布、试题呈现、结果解释等等,必须根据教育测量的相关理论,规范、科学地加以辨析。

对教育评价进行定义不是一件容易的事情,主要原因在于人们依据自身的经验与专业取向,或者不同的切入点,容易偏重于某一层面,不容易形成一个具有普适性且能让专家一致同意的定义。著名测评学家克隆巴赫将它界定为“对当前某个项目进行之中或之后发生的各种事件的一种系统性考查,同时促进该项目或者具有同样目的的其他方案的改善。”[6]著名教育评价专家斯克瑞文(M.S.Scriven)将它界定为“对客体的价值或者优点的判断”。[7]虽然这两个定义存在评价是否价值中立的争议,但是不可否认评价即评判价值,而教育评价是对教育对象活动结果的测量、解释和基于一定标准的评判。[8]与教育测量相比,教育评价不仅包含对教育对象的描述,更包含某种标准下对评价对象的价值或某些特征的评判。学者斯塔弗尔比姆(D.L.Stufflebeam)认为,评价是一种规划、收集并提供阐述性与判断性信息的过程,这些信息包括评价的目标、设计、实施与结果,主要目的在增进对受评者的了解,作出有关绩效的价值判断,协助政策的制定。[9]

纵观教育评价的发展历史,学者古巴(E.G.Guba)和林肯(Y.S.Lincoln)系统地依据评价的特征,将评价分为四个时代,分别是以测验为主的第一代评价,以收集资料与陈述事实为主的第二代评价,以判断及决策为主的第三代评价,以及以强调沟通协调为主的第四代评价。教育评价发展至今,并没有一个统一的理论框架。[10]教育评价往往不仅关注教育结果,同时也关注与教育结果有联系的各个方面,并深入研究和探索其中存在的联系,甚至因果关系。基于此,形成了不同的教育评价的分类。学者沃森(B.R.Worthen)等人将教育评价分为六类:目标取向、管理取向、消费者取向、专家取向、对立取向及参与者取向。其中,目标取向较为著名的有教育专家泰勒提出的泰勒模式,管理取向较为典型的就是斯塔弗尔比姆提出的CIPP模式。泰勒模式又称行为目标模式,这是一种以目标为中心的模式。它把教育目标用学生的成就来标识,并把这一行为目标当作从事教育活动和进行教育评价的主要依据。按照该模式,预定目标决定了教育活动,而教育评价就是判断实际教育活动达到目标的程度,再通过信息反馈,促进实际工作尽可能逼近目标。CIPP模式则关注评价活动中涉及教育对象的背景(context)、输入(input)、过程(process)和结果(product)四个方面,将上述四个方面整合起来进行评价。它突破了泰勒模式的框架,将评价从范围和内容上加以拓宽,具有动态评价的特征,能较为全面、系统地反映评价对象的全貌。其中,背景评价具有诊断性,根据社会需要对教育目标本身的科学性、合理性作出价值判断;输入评价是对方案、计划的可行性的评价;过程评价是发现方案实施过程中的潜在问题,提供反馈信息;结果评价的重点仍在于判断教育活动达到目标的程度。CIPP模式与泰勒模式并非完全对立,重视定量目标是它们的共同特征。在需要解决的问题与投入条件相对稳定的情况下,CIPP模式就转化为泰勒的行为目标模式。这两个模式在分析国际大规模测评的结果和解释教育系统相关影响因素中被广泛运用。

从上述简要叙述中可以看到,教育测量往往是教育评价过程的组成部分。特别需要定量分析结果时,测量是必备的工具和方法,它在教育评价中占有重要地位。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈