选择合适的教育测量工具

时间：2023-03-08 理论教育版权反馈

【摘要】：测量工具是对被测对象进行测定的器具和手段。在学校的各种测验中，教师对每个学生的评定值可以作为效标。信度反映测量工具的稳定性和可靠性。测量要具有科学研究的价值，一个起码的条件就是测量所得的结果是可靠的、客观的。但是，对于教育测量来说，这一要求并非很容易达到。

第九节　选择合适的教育测量工具

测量工具是对被测对象进行测定的器具和手段。用什么工具对被测者实施测量，需要根据测量的目的以及可能的条件认真进行选择，在校本研究中常用的测量工具有：各种标准化的量表、教师自己编制的各类测试题、问卷、数量化的观察记录等。

一、对测量工具的要求

任何测量工具都应当具有一定的效度、信度、难度、区分度。这里着重谈效度与信度。

（一）效度

效度是指测量的有效性和正确性，即测量能准确地测出它意欲测验的属性或特征的程度。

教育测量固然是为了测量出被试的某些品质或教育活动的某些结果，但一个测量是否真的就达到了它预期的测量目的呢？效度就是衡量一个测验达到测量目的的程度的指标；它反映的是测量的准确性和有效性。简单地说，测量效度与这类问题有关：“这个测量是否达到了测量个性（禀赋或其他特征）的目的？”一个测验对于有些情况效度高，对另一些情况却未必效度高。例如，一份数学试卷在测量学生的数学能力时效度高，但在测量逻辑推理能力、发散思维能力时效度就未必同样高，因为数学能力并不等同于逻辑推理能力、发散思维能力，虽然它们之间可能有很大关系。效度又具体分为内容效度、准则效度和结构效度三种类型。

效度的指标往往用相关系数表示，称为效度系数。它通常是用测验的分数与效标之间的相关来衡量。相关系数的值越大，表示相关程度强，效度也就高，反之亦然。在学校的各种测验中，教师对每个学生的评定值可以作为效标。如果测验结果与教师平时对学生观察和评定的结果一致性很高，就说明这个测验具有较高的效度。

（二）信度

信度是指测验分数对于被测者真实水平的体现程度，也就是指测量结果的前后一致性程度。信度反映测量工具的稳定性和可靠性。如果一次测验对同一个人施测多次，多次测量的分数基本相同，则可认为这个测验是稳定可靠的，即信度较高。反之，如某个测验对学生施测多次，同一个人每次测量的得分变化不定，有升有降，则这个测验的信度就较低。

测量要具有科学研究的价值，一个起码的条件就是测量所得的结果是可靠的、客观的。但是，对于教育测量来说，这一要求并非很容易达到。习一个学生，在用内容一致、难度相同的两份试卷测验时，往往难以做到两次测验成绩完全相同（假设学生在测验时保持的状态没有变化）。不过，只要两次测验分数没有大的差别，我们就会觉得很正常；反之，若有显著的差别，我们就会觉得这两次测验的成绩不一致——那么，两次测验之间究竟有多大的一致性呢？或者说，用这种试卷进行测验时，前后测验之间是否保持稳定、可靠呢？为了解决这一类问题，人们采用了信度这一指标进行考察。

信度的种类较多，常用的有再测信度（重测信度）、复本信度（等值信度）、分半信度（两分信度）、同质信度，等等。每一种信度说明了测验不同方面的稳定性和可靠性，具有不同的意义。信度和效度一样，其指标用相关系数来表示，称为信度系数（或信度值），通常是利用同一组受测者得到两组数据资料来计算其相关。相关系数的值越大，表示测量的一致性程度越高，则信度越高，反之亦然。

效度和信度的关系是：效度高的测验信度一定也高，但信度高的测验效度不一定高。好的测验要求信度和效度都要高。

测验还要求测量工具具有适当的难度与区分度，这在前边已有所涉及，不再赘述。

二、教育测量工具的获得

在校本研究中，教育测量工具的获得主要靠研究人员自编测试题和选择呈合需要的量表。

（一）教育测验题的编制

1．测验试题编制的一般过程

测题编制的一般过程有以下几步：

第一，确定测验的目的类型；

第二，制定测验大纲，包括测验目的、对象、要求、试卷结构、测验时间、项目、得分比例、测量、答案要求等；

第三，编制双向细目表；

第四，编制测题；

第五，组织试测及修改试题。

2．测验题的设计要求

第一，要明确测验的目的及特殊用途。任何测验都是针对一定目的和用途编制的，不同目的和用途的测验，其内容范围、难度、题量等要求也不同，如选拔性测验和水平测验是两种目的和用途不同的测验。

第二，要明确测验欲测量的目标范围。测验欲测量的目标范围，决定于测量对象目标的定义，如果测量对象目标的定义不明确，那么就无法确定测验内容的范围。

第三，测验题目要有代表性。测验试卷是要测量的内容和目标的一个样本，试题取样时要把深度取样和广度取样结合起来，一般要编制双向细目表。

第四，确定适当的题型和题量。根据不同的测量内容和目标，可以采用不同的题型。测验中的题型一般分为客观性试题和主观性试题。客观性试题主要是正误题和选择题等，主观性试题主要是论述题、计算题、证明题等，两种题型各有所长和所短。由于客观性试题较小，所以题量可以较大，试题的覆盖面大；主观性试题回答费时，试题量小，试卷覆盖面小，同时又由于两种题型适合测量的内容目标具有互补性，因此，实践中我们应将二者结合起来使用。

第五，恰当的难度。测验应有恰当的难度，各试题的难度要和测验的性质、目的要求一致，整个测验各题难度所构成的分布也应恰当。

3．测验题的类型

测验题的题型是根据测验的目的而设计的，为了从不同的方面和不同形式获得被测对象的相关信息，测试题的题型多种多样，在校本研究中，为了让师生较为适应，测试题可以沿用一般学业测验的题型，包括：填空题、选择题、判断题、匹配题、简答题、论文式测题和实践性操作题等。

应当说明的是，学校中的经常进行的学生学业成就测验，特别是一些经过仔细检验过的标准化试题，对于测定学生某一范围和某一方面的知识与能力，是很好的测量工具，可以把常规的测评与校本研究所需的数据获得结合起来。其实这也是许多学校教育研究常用的方式。

（二）选用符合测验要求的量表

广义而言，量表可以是具有权威性的各种心理量表，也可以是某些教科研部门编定的检核表。

目前较为常用的心理量表有：智力量表（包括中国比奈量表、韦氏量表、瑞文标准推理能力测验等），人格量表，如卡特尔16种人格特性测验，心理健康量表，以及用于测验考试焦虑、学习动机、学习态度与方法、智力能力的其他量表，每种量表都有使用说明和操作注意事项。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈