首页 理论教育 内容相关效度

内容相关效度

时间:2022-02-27 理论教育 版权反馈
【摘要】:内容相关效度,简称内容效度,指的是测验的内容对所要推论的课程目标内容的代表程度。首先,教师可以考虑其课堂测验的内容是否能真正代表测验想测的教育目标。因此,我们知道提供内容相关效度的一种方法就是有意识地通过一些测验编制程序来增加测验的覆盖面。实际上,正是这些文件构成了内容相关效度的重要形式。教育评价中,搜集内容相关效度证据的第

记住,我们拥有的效度证据越多,就越能在测验分数的基础上作出更准确的推断。下面我们先来看一下第一类效度证据:内容相关效度。

内容相关效度(content-related evidence of validity),简称内容效度,指的是测验的内容对所要推论的课程目标内容的代表程度。几十年前,当教育测量人员首次接触内容代表性的问题时,人们的关注点主要在成就测验上,例如测量学生历史知识的测验。如果教师认为八年级的学生应该了解124个具体的历史事件的话,那么测验中考查的事件越能代表那124个事件,这个测验的内容相关效度就越好。

然而,目前“内容”的含义不仅仅指事实性的知识,教师感兴趣的课程目标的内容包含了知识(比如历史事实)、技能(比如抽象思维能力)、态度(比如学生学习科学的意向)。所以,我们应从更广义的角度来理解“内容”一词。当我们确定一个测验的内容代表性时,抽取样本到测验中时,课程目标中的所有内容都是可用的。需要注意的是,大部分课堂测验的课程目标包含了教师在某一特定指导期内希望学生掌握的知识和技能。

在过去的几十年,“内容标准”(content standard)一词成为描述教育者希望学生所掌握的知识和技能的一般方式。目前,几乎所有州政府都同意在本州公立学校中对其每一主要课程领域设立内容标准。同样,教师有时也会追求与其所教授的特定年级水平或科目相关的额外的内容标准(或课程目标)。

但是,怎样算是恰当地代表了一组内容标准,怎样又算是没有呢?显然,内容代表性高的测验比代表性低的测验要好。我们举例说明测验代表课程目标的几种不同水平。

从图3.2中,我们可以看到:课程目标(用矩形阴影表示的部分)以及测验题目(用黑点表示)。当测验题目与课程目标匹配程度越低时,内容相关效度就越低。

图3.2 测验题目对课程目标不同的代表水平

例如,在图3.2的插图A中,我们看到测验题目有效地分布于矩形阴影所代表的课程目标内容中。然而,在插图B中,我们发现测验题目中的一部分与课程目标的内容不匹配,而且余下的测验题目也没有很好地遍及整个课程目标。在插图C中,所有的测验题目都包含于课程目标之中,但是,它覆盖课程目标的范围十分有限。

我们尝试赋予矩形和黑点实在的意义。例如,一位代数教师刚教完第一册代数,为了确定学生在这一学期的学习情况,她设计了一套考查范围非常广泛的期末试卷。基于学生期末试卷的成绩,该教师对学生进行了等级划分,该划分会影响学生是否能够接着学习第二册代数的内容。我们假设第一册代数书中的内容(主要指代数第一册课程中所教授的代数技能和代数知识)是学习第二册内容的首要必备条件,那么,如果该期末试卷不能有效地代表代数第一册内容的课程目标,则基于测验分数对学生代数水平的判断就会犯错误,从而导致决策的失误。如果教师的教育决策以学生达成课程目标的水平为转移,那么,在并不能反映课程目标的测验的基础上对学生达成课程目标的程度进行的判断,就有可能导致错误的教育决策。

教育者该如何搜集内容相关效度的证据呢?一般而言,主要有两种方法。下面将分别予以简单介绍。

确保测验的内容与课程目标的内容相匹配的一种方法就是仔细应用一系列“测验——发展”程序,该程序关注如何确保评价程序本身能恰当地反映课程目标的内容。测验风险越高,就越要努力确保评价程序的内容能恰当地代表课程目标的内容。例如,如果测验的出版商想要编制一套重要的全国性高中化学统一考试题,用来检测高中生掌握化学知识的程度。那么,为了保证所测的知识和技能能很好地代表高中化学知识,在测验的编制阶段就要下一番工夫了。与此相似,鉴于州NCLB测验的重要性,人们极为关注测验内容是否恰当地代表了州内最重要的课程目标。

例如,下文中列出的是在开发一个重要的化学测验时,为保证测验内容能恰当地代表“高中生应该掌握的化学知识”,可能会采取的各种措施和步骤:

 

增强高风险化学测验内容代表性所采取的措施

■ 组成一个全国性的内容专家小组,通过书信或者多次面对面的交流,请专家对新测验该测哪些知识和技能提出建议。

■ 对全国高中使用的五套化学教科书进行细致地分析,从中选出一系列知识点,然后与专家们所建议的内容进行系统地对照。

■ 组建一个高中化学教师小组(小组中的每位教师都被其所在州评为“年度最佳化学教师”),请他们对测验应重点考查哪些知识点(知识和技能)提出建议。

■ 请几位大学教授(他们被认为是化学教学界的国际性权威人士),独立地审阅上述各界人士提出的建议,并对这些建议提出增删、修改的建议。

■ 请州和全国中学化学教师协会的教师们对经过多次建议和修改的待测内容进行评议。

 

对于那些低风险的测验来说,比如高中化学教师编制的单元测验,显然,我们很难保证这种测验的所有内容都是精心设计的。然而,即使是普通的任课教师也要注意其自编测验内容的代表性。首先,教师可以考虑其课堂测验的内容是否能真正代表测验想测的教育目标。例如,不管对于哪一种测验,教师都可以有意识地努力鉴别测验所欲代表的课程目标的本质。需要铭记的是,测验本身不应成为教师关注的焦点。相反,测验只不过是课程目标的一个“替身”罢了,也就是指教师的教学目标所包含的一系列技能或知识。

举例来说,如果一位十年级的英语教师想编制一份期末试卷,该试卷要能代表一学期课程的学习情况,那么该教师首先要确定本学期所教授的所有重要知识和技能。通常情况下,拥有课程内容的大纲或主题列表就足够了。其次,在确定英语课程目标(覆盖了英语课程的主要内容)的主要内容后,教师就可以编制一份恰当的代表课程目标的测验了。

正如您所看到的,这里最需要关注的是:教师要努力形成课程目标本质的概念,其次要判断所建构的测验是否真正恰当地代表了课程目标的内容。遗憾的是,许多教师编制的测验并没有涉及课程目标的任何内容。一些教师不去判断应该测量哪些知识、技能、态度,就开始艰苦地编制测验题目。不久,他们的测验诞生了,但新测验往往不能很好地代表课程目标,因而,通过测验分数作出的教育决策也是靠不住的。

因此,我们知道提供内容相关效度的一种方法就是有意识地通过一些测验编制程序来增加测验的覆盖面。如果采用了这种方法,就要将各个步骤的具体做法记录进行存档。实际上,正是这些文件构成了内容相关效度的重要形式。测验越重要,各个步骤的具体做法记录越应更好地进行存档。对大部分教师的课堂评价而言,我认为此类文档是必不可少的。

教育评价中,搜集内容相关效度证据的第二种形式涉及一组鉴定者,这些鉴定者就测验对课程目标的代表程度作出评估。对于高风险测验而言,例如州NCLB测验或州开发的测验(学生必须通过这些测验才能拿到高中毕业证书),需要对测验内容作系统的评价。对于非选拔性的课堂测验,这类外部评价就远没有那么正式了。例如,当一位教师请求同事详细评价期中考试内容的覆盖面时,就属于不太正式的外部评价。显然,外部评价程序的级别依赖于根据测验结果所作决策的重要程度;所作的决策越重要,外部评估的程序就越精细。下面我们来看两个相关的例子。

假设州教育部的官员决定编制一份全州统一使用的六年级语言艺术和数学测验,在这两个测验不合格的学生必须参加一个由州统一设计、各地自行组织的课后补习。一旦新评价方案的题目编制出来(这些题目可能很传统,也可能富有新意),就分别组织了20人的语言艺术试卷内容审查组和20人的数学试卷内容审查组,对测验题目进行审查。这些审查员都是对相关领域非常熟悉的专家,他们对测验所涉及的内容了如指掌。

为了便于解释,我们以数学试卷为例。在评审过程中,要求审查组的20名成员对测验中的每一道题目都作出“是”或“否”的判断,例如:

这道题目是否恰当地测量了学生的数学知识和(或)技能?鉴于测验内容对学生进一步学习的重要性,如果学生没有掌握该题所测的知识点,是不是一定要参加补习?

注意这些问题实际上含有两个成分。题目不仅要测量某一项数学知识或技能,而且,没有掌握知识点的学生必须参加补习。也就是说,这些知识和(或)技能是十分重要的,没有掌握的学生必须参加补习;此外,这些知识和(或)技能能够被测验题目准确地测量出来。如果一道题目的内容足够重要,而且题目的内容能够被恰当地测量,那么审查组的成员应回答“是”;如果题目的内容既不重要,而且题目内容不能被该题目准确地测量,那么审查组的成员应回答“否”。

通过计算小组成员在每一道题上作肯定回答的百分率,就可以得出每一道题的内容相关效度指标。为了更好地解释这一程序,我们假设评审小组一共回答了5道这样的题目,每一道题目得到肯定回答的百分比分别是:试题1,72%;试题2,92%;试题3,88%;试题4,98%;试题5,100%。那么,对于整个测验而言,肯定回答的平均百分比为:90%。测验内容审查者提供的肯定回答的平均百分比越高,说明内容相关效度的证据就越有说服力。这种逐项对测验题目进行的审查,意在把那些与欲测课程目标无重大关系的题目排除在外。

内容审查小组除了这种对单个题目的判断外,还要对测验题目在整体上对评价范围的代表程度进行评价。下面是这类问题的一个例子:

首先,请在心里努力想出您认为重要到不掌握就必须参加课后补习班的数学知识和(或)技能来。这样,您便对评价范围有了基本的把握。在确定了数学知识和(或)技能的范围后,请您估计这套测验题对评价范围的代表程度,它的比重是____%。

如果内容审查小组对测验内容覆盖范围问题的平均百分比为85%,这种情况并不算糟糕。然而,如果平均百分比仅仅是45%,这表明测验中漏测了大量重要的内容。对高风险测验而言,外部审查小组在逐题考查和整体考查这两组问题上的平均百分比就构成了判断内容相关效度的主要指标。当基于学生的测验分数对其掌握课程目标的水平进行推断时,这两个平均百分比越大,推断时就越有把握。

对于一般教师而言,尽管他们可以将这种评审方法用于教师自编的测验中,但我还没发现有哪个头脑清醒的教师愿意花费那么大的精力来做这件事。不过,教师可能会请另一位教师帮助他检查一下测验题目,并给出某些建议。然而,由于作出这种判断需要一些时间,因此,教师们经常交换审查对方的试题。(你审查我的测验,我审查你的测验。)

让伙伴教师审查课堂测验有一个很大的好处,这种审查方式通常会产生一个前设性的结论,该结论能代表测验内容的覆盖面。在早期,您越仔细地关注测验内容的覆盖面,测验内容的覆盖面就越准确。

回顾一下,以上我们探讨了一类效度证据——内容相关效度,该效度可用来支持基于测验分数对学生掌握课程目标水平进行的推断。我们对内容相关效度进行了较为详细地探讨,这是因为您将会发现:当一般教师对自编课堂测验进行评估时,它是教师需要考虑的最重要的一种效度证据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈