首页 百科知识 作为基于证据推断的测评

作为基于证据推断的测评

时间:2022-03-29 百科知识 版权反馈
【摘要】:应该说,梅西克测评基于证据推理的理解,结合统计模型的发展,有利于我们采用基于统计意义上的推理模式来解决在测评中可能存在的不确定性等问题。可以看出,梅斯雷弗对于测评的相关理念直接来自于梅西克“以结构为中心”的测评设计理念。
作为基于证据推断的测评_国际视野下大规模数学测评研究

一、作为基于证据推断的测评


从一定程度上,教育测评的结果不同于物理意义上的测量,可以直接得到如身高或体重等结果。教育测评所要测评的是学生所知所能,与学生做出来的、被观察到的不一定是同一件事。测量专家格利克森(H.Gulliksen)认为,测量理论的核心在于“个体的潜质或能力与他(或她)在测试中所得分数之间的关系。”[11]即把个体对一系列试题的反应与关于个体能力的假设之间的关系看作是数据性推理的问题。基于上述认识,分数和学生潜质或能力间的连接直接决定着测评结果的合理性和有效性。在这样的认识下,相应的众多方法,如经典测量理论(CTT)、项目反应理论(IRT)及潜在类别模型(Latent Class Model,以下简称LCM)等被用来对学生的所知所能进行推理。随着认知科学的发展,这种不同于行为主义学习理论范式的形成,既拓展了学生对知识和技能的认识,又丰富了观察学生表现证据的策略和种类。随之而来的就是,面对如此多性向、多层次的复杂数据,如何处理形成上述推理所需的证据,无疑对测量人员提出了挑战。

为加深学生对获取和使用知识的理解,并尽最大可能获得测评中更为复杂的学生表现,如模仿、互动、合作甚至建构式回答等,无论是认知心理理论的发展,还是测量技术的发展,都正在逐步提供越来越多的、行之有效的支持和帮助。但是也存在着一些问题:认知心理理论和测量技术如何有效整合?两者的内在一致性如何?在测评设计和结果分析中,如何针对测评的目的发挥出测评的最大效能?这些问题迫使我们重新思考测评形成过程的内在一致性的构架模式,即测评需要针对学生认知结构来收集复杂数据,并以此作出推断或推测复杂的个体学习,评价复杂项目或相关组织系统,而这需要构建一个从观察到推断的完整推理链。

上述模式不仅提出了对于测评效度的需求,而且为我们思考推理链的架构过程提供了线索。测量专家梅西克(S.Messick)指出,测评的数据为推断和解释等提供了概念性、实质性、统计意义上的支撑。[12]对于测评设计以结构为中心的方法,往往需要首先确定所要测评的相应复杂的内容,诸如知识、技能及其他性向,这些内容的复合体即结构。这些结构与教学目标及其他社会价值层面的东西有着或明或暗的联系。其次,必须考虑何种行为或表现能反映这些结构,并思考哪些项目或情境能引起这些行为表现。总之,这些所要测评的结构特征驱使着相关项目的选择或形成,包含基于结构的评分标准和相关准则的合理设计。这也体现出梅西克“以结构为中心”的测评设计理念。

梅西克测评设计理念的价值在于,他将测评的设计跨越不同的测评目的,力求形成一种具有普适意义的模式,即将测评目的、各种数据、项目类型、评分方法及统计模型整合起来进行整体思考。哪些知识或技能需要测评?评分方法如何从学生表现中攫取相关线索?如何从多种项目中,或者通过比较不同学生在不同项目上的表现得出所需证据?可以说,测评设计过程中的每一步都会影响考生基于项目行为的推理链,这些项目都是用来测评学生的知识能力的。

应该说,梅西克测评基于证据推理的理解,结合统计模型的发展,有利于我们采用基于统计意义上的推理模式来解决在测评中可能存在的不确定性等问题。而这些发展,一定程度上也反过来促使原有的测量理论有了新的发展,以便能从更复杂的数据信息中获取更多样或更复杂的推断。

基于上述对于测评以证据为中心构建整个推理链的认识,1994年,梅斯雷弗对测评中所涉及的相关证据及可能对应的所需推理等内容进行了详细分析和阐述。[13]在其分析中指出,测评不是简单设计一些“好的任务”,至少还要考虑如何对它们进行评分。从推断的角度看,一个复杂的测评首先要明确推断的目标,其次是根据目标形成相关观察对象及观察所需的情境等。从教育测评的角度看,上述目标就是学生所学的知识、技能和成就,而观察对象就是学生所说所做的相关具体事情,在实际操作中往往通过学生在一定情境中对试题或任务的解决来获取相关证据,再通过观察、获取的证据来推断出学生知道什么和能做什么。因此,测评可以看成一个用来观察学生行为和获得数据的过程,而这些数据可以用来对学生所知所能进行合理推断,即测评是基于证据的推理过程。可以看出,梅斯雷弗对于测评的相关理念直接来自于梅西克“以结构为中心”的测评设计理念。

上述对于测评本质的认识,为评价的具体操作和组织奠定了基础。从上述对测评即基于证据的推理过程的认识,可以理解测评的结果来自于估计,这种估计建立于对知识及对学生所知所能的表现进行抽样。但值得注意的是,我们的推断是在一个可能不确定的层面作出的。由于上述抽样,我们所获得的信息是不完全的,甚至具有不确定性,这容易导致形成不同的解释和推断,类似医学诊断和智力分析。这需要我们在测评中合理运用相应的技术,并且尝试对我们所观察到的相关证据界定覆盖面并赋予不同的权重系数。这里我们将遇到一个问题,即数据是否可作为证据?显然数据和证据之间存在明显区别。“在一些问题分析过程中,只有当数据与一个或更多个考虑中的假设建立起关联时,数据才能成为证据。证据建立在一些假设的关联上,它或增强或减弱了假设的可能性,没有假设,也就没有数据的关联性建立。”[14]

测评数据,只有当与各种推断相联系时才产生意义。同样的观察表现可以成为有些推断的直接证据,也可以在其他推断中成为间接证据,甚至根本没有关系。在教育测评中,我们针对知识和技能等构建相关推断,测评的评分是否与所测的知识和技能相联系而真正成为证据,存在着众多变数,如所测项目或试题的类型、测试所需时间和条件,甚至学生在测试当日的身体状况等等。这些造成的直接结果就是,数据或评分不能成为学生所知所能推断的直接证据。

测评必须要考虑哪种证据或观察是有助于推断学生学业成就的,包括他的所知所能。这里就涉及有关学习特性的相关内容对测评数据和证据链形成的影响。认知研究,包括搜索学习者如何解决问题的证据,以及他们如何理解所要解决的问题。测量科学对此提供了有利于体现证据的各种方法来确定学习者的能力。整个推断链确定了学生所言所行及所得结果中需寻找的内容,同时解决了为何所寻找的内容有助于推断学生的所知所能,而这些都属于测评设计的范畴。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈