首页 理论教育 基于经验的完善方法

基于经验的完善方法

时间:2022-02-27 理论教育 版权反馈
【摘要】:我们将首先考虑传统的题目分析方法,然后考虑近来使用学生数据完善教师课堂评价方法的建议。大多数用于完善课堂评价的方法都是以学生反应的分数为基础的。p值应当被看作是学生答对某道题的可能性。一道有四个选项的多项选择题,意味着p值是0.25。尽管我们认为p值是衡量难度的指数,但一道题的实际难度,是与围绕这道题的教学联系在一起的。这个春末,苏珊完成了一项教育测试的扩展课程。由于这4道题都是基于同样的教学内容,

在评判性完善评价方法的基础上,还有根据学生对您所提供的评价工具的反应为经验数据的完善途径。下面,让我们来谈谈使用学生反应数据来完善评价方法的问题。多种多样的经验性题目完善技术已经发展了多年。我们将首先考虑传统的题目分析方法,然后考虑近来使用学生数据完善教师课堂评价方法的建议。

大多数用于完善课堂评价的方法都是以学生反应的分数为基础的。我知道有些读者(您也许是其中之一)大概会对一些数字上的东西感到困惑。我有时相信教师和准教师之间存在区别的秘密就在于谁作出了“焦虑的承诺(rtemble pledge)”——当遇到任何大于一位数(大于9的数字)的数字时的一种焦虑。如果您是数字恐惧症者之一,我建议您保持冷静,因为您在这里和后面章节中遇到的数字都是很简单的。不要焦虑,那些数字不会让您痛苦。只要通过简单的例子进行学习,您将会感到令人惊奇的容易。

难度是判断题目质量的一项有效指数。常用的题目难度指数是p值,p值是这样计算的:

难度pR/T

其中,R=正确回答某道题的学生的数量

T=回答某道题的学生总数

为了进一步说明,如果有50名学生回答一道题,其中有37名学生回答正确,那么代表这道题目难度的p值是:

难度p=37/50=0.74

从这里可以清楚地看出p值的范围是从0到1.00,p值越高说明答对的学生越多。举个例子来说,如果p值是0.98就表示基本上所有的学生都回答对了。类似地,一道题的p值是0.15就表示大部分学生(85%)都答错了。

p值应当被看作是学生答对某道题的可能性。例如,一道二选一的判断题意味着学生有一半的机会能够答对该题,因此,这道题的p值就是0.50。一道有四个选项的多项选择题,意味着p值是0.25。

教育工作者有时会犯错误,把拥有高p值(例如,p值为0.80及以上)的题目视为“简单”题,同时拥有低p值(p值为0.20及以下)的题目则被描述为“困难”题。这样的描述可能是准确的,也可能是不准确的。尽管我们认为p值是衡量难度的指数,但一道题的实际难度,是与围绕这道题的教学联系在一起的。如果学生受到了特别好的教育,他们能够在一道任何人看来都很难的题目上表现得很优秀。那么我们可以说p值0.95就意味着这道题很简单吗?不。这道题目的复杂性内容已被简单化地告知了。例如,某道关于中枢神经系统的问题,几乎所有的内科医学专业的学生都能正确回答,但几乎所有普通市民却不能回答。一道题的0.96的p值并不表明该题在本质上是简单的。

要想使测试设计带来常模参考结论,那么衡量题目质量的一个有力指标就是题目区分度指数。简单地说,题目区分度指数就是要告诉我们,那些在整个测试过程中都表现得很好的人,正确回答某道题目的频率有多大。从根本上来说,题目区分度指数揭示了学生对整个测试的反应与学生对某道题目的反应的关系。一种计算题目区分度指数的办法是计算学生在整个测试中的得分与他们在某道题目上的表现的相关系数

区分度高的题目是指在整个测试过程中得分高的人回答某道题的正确率要高于在整个测试中得分低的人。区分度低的题目是指在整个测试过程中得分低的人回答某道题的正确率要高于在整个测试中得分高的人。不具有区分度的题目是指在整个测试过程中得分高者和得分低者在对某道题作出正确反应的比例上没有明显差异。这样一些关系可以用表11.1加以概括(记住“<”和“>”分别表示更少和更多)。

表11.1

一般说来,教师更喜欢的是区分度高的题目。因为区分度高的题目可以揭示那些知识最渊博的学生(在整个测试过程中得分高的学生)作出正确回答的情况和那些知识最不渊博的学生(在整个测试过程中得分低的学生)作出错误回答的情况。区分度低的题目则揭示了某些东西是失误的。因为对于这类题目来说,那些知识最渊博的学生常常会做错,而那些知识最不渊博的学生则经常会做对。

那么,如何计算题目的区分度指数呢?以下四个步骤对课堂评价方法的分析是有用的:

 

 

假设您正在对期中测试题进行分析,您将把30份试卷分成数量相等的高分组和低分组。高分组的15个学生在回答42题时全部正确,而低分组的15个学生中只有5个学生回答正确。那么这道题的区分度指数就是1.00-0.33=0.67。

假设今天早上一位学生的家长在上课之前给您打电话,解释他儿子在课堂测试中表现不佳的原因。他通过问您“您如何确定这就是托尼(Tony)的原因,而不是您的测试存在问题呢!”这样的问题,表达了自己的抱怨。

➡ 如是我是您,我将这样回答家长:

我很高兴您打电话来谈论您儿子测试成绩的事,因为我们都想知道应该怎么做才最有利于托尼的发展,而且我也想保证我所作出的教育决定最有利于他的发展。

我所应用的课堂测试的方法是为了得出最精确的结论,这样的话我就他知道学生掌握知识和技能的情况。这是很重要的,所以,我所得到的关于学生技能水平的结论是有效的。这样,每年我都会系统地留心于主要测试的完善工作。您要记住,在最近这两次考试中,托尼的得分确实太糟糕了。

我想做的是向您展示我给学生做的测试,以及我为完善测试而应用的数据。如果需要的话,为什么我们不建立课后或晚上的会见制度呢?这样就可以让您和您的要子仔细检查我的课堂评价情况,以及我长期以来所收集的、为了确保我所作的关于托尼和其他学生学习情况的有效结论的证据。

➡ 现在,您将如何回答这位家长呢?

那么,一道题的区分度指数应该是多大才能使您认为这道题是可接受的呢?埃贝尔和弗里斯比(Ebel and Frisbie,1991)在表11.2中提出了以经验为基础的准则,显示了常模参考测试题的质量。如果您把他们的标准看成是近似的,而不是绝对的标准,那么它们将帮助您决定您的题目是否具有令人满意的辨别度。

苏珊·史蒂文斯(Susan Stevens)在埃克塞特中学教六年级社会科。在七年中,她花了很长时间去发展“可信的课堂评价(creditab1e c1assroom assessments)”。她真的已经超过了自己应干的工作时间,在周末工作,希望设计一流的考试。

这个春末,苏珊完成了一项教育测试的扩展课程。在这门课中,她学会了怎样计算测试题目的辨别度。作为结果,今年她一直在对考试进行这样的分析。

在她的一项大部分是选择性反应题目的考试中,苏珊失望地发现30道题目中有4道题是消极的辨别题目。换句话说,在整个测试中表现好的学生在回答这4道题时的错误率高于在整个测试中表现较差的学生。让她感到惊奇的是这4道题目涉及的教学内容都是一样的,即美国政府立法部门、司法部门与行政部门之间的关系。

苏珊的第一个想法是删掉这4道题,因为它们明显是有缺陷的。当她思考这个问题时,她又想到了另一种可能性。由于这4道题都是基于同样的教学内容,也许她的解释会使好学生感到困惑。

➡ 如果您是苏珊,并且想彻底搞清楚这个问题,那么您是否要彻底检查题目或教学?如果是,那么您将如何做呢?

表11.2 评估题目辨别能力的准则

资料来源:埃贝尔和弗里斯比(Ebel and Frisbie,1991)

一道题目的区分度与其总体的难度指数呈高度相关。举个例子来说,所有的学生都回答对了某道题,那么p值就是1.00。对这道题来说,phpl都是1.00。因此,这道题的区分度指数为零(1.00-1.00=0)。一个近似的结论会接着产生,某道题的p值为零就表明没有学生回答正确。

由于题目具有很高或很低的p值,所以题目的区分度指数就很难获得。在后面的章节中,您将看到这种情况会促使常模参考测试的支持者(他们希望所有的学生都能在教学后正确回答问题)去寻求另一种计算题目质量指数的方法。

为了对基于其p值和题目区分度指数的选择性反应题目进行修订,更深入的了解是必要的。对于多项选择题来说,我们可以通过运用干扰项分析的方法获得更深入的见解,在这种分析方法中,我们可以看到高分组和低分组是如何对题目的干扰作出反应的。

表11.3展示的是在实施干扰项分析时被使用的有代表性的信息。注意表11.3中的“﹡”,它表明选项B是对题目的正确回答。表中题目的难度指数(p)是0.50,题目区分度指数(D)是-0.33。这道题的干扰因素是D选项的内容会诱惑高分组的学生去选择它。的确,当超过一半的高分组的学生选择D时,没有一个低分组的学生选择D,D选项需要我们注意。

表11.3 一种有代表性的干扰项分析表

同时也需要注意选项C在题目中是不起作用的,因为没有学生选择C。在检查D选项的基础上,C选项应该设计得更有吸引力。当然,B选项作为这道多选题的最佳答案、正确答案,可能也需要进行一些推敲。对于多选题和匹配题来说,更深入地分析学生对干扰的反应将更具有启发性。同样的道理,仔细审视学生对主观题和简答题的反应,能够对修订工作提供有用的见解。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈