考试分数应用简介

时间：2023-03-09 理论教育版权反馈

【摘要】：对于大规模的区分性考试如高考之类的考试，成绩分布多要求其符合正态分布。表现数据离散性程度的量数，称为差异量数。标准差用σ表示，标准差又称均方差，是常用的差异量数。就是说某班成绩的差异系数Cv1≤9%视为无分化现象。④还可以看出政治和物理较稳定，两次考试的差异系数变化不大，代数、语文、英语的差异系数在减小，而几何、物理、化学的差异系数在增大。

考试分数应用简介

邢维龙

有关考试分数的几个问题：

1．一位小学生回到家里告知家长：我今天语文得了80分，数学得了90分。请问，今天这位小学生哪门功课考得好？

2．一位老师考试全班都在90分以上，他说：我教学质量高；另一位老师考试全班有一半人不及格，他说：我就是要求严。请问，他们说的有道理吗？

3．考试的分数就是学生的学习成就吗？

4．教育研究除了描述性的论文外能否加入量化的内容呢？

这些问题看似简单但我们又必须作出回答，而教育统计和教育测量的知识就可以给出正确的答案。我们这里只就几个有关的知识作一简要的介绍并用实例来说明其应用，以作引玉之砖。

一、频数分布表与直方图

当数据量很大时，一般的处理方法较麻烦。我们可以把数据进行压缩，减少其数据的个数。编制频数分布表就是压缩数据的有效方法。

频数：什么是频数？频数就是把一组数据排序后进行分组，一组中数据的个数就称为这组数据的频数，用f来表示。

作频数分布表，如下表所示：

某班生物考试成绩频数分布表

频数分布表是很有用处的表。①它把42个数据压缩成了8组数据，大大地减少了要处理的数据量。②每一组数据我们都用其组中值来代表。③从各组的频数值可以看出这组数据中数据存在的状况，从整体上就可以看出数据的分布状况。④它是以后统计分析的基础。

频数表可以作出分布直方图，如下图所示：

某班生物考试成绩频数分布直方图

从频数分布表和频数分布直方图可以看到本次考试成绩的分布是否符合正态分布。对于大规模的区分性考试如高考之类的考试，成绩分布多要求其符合正态分布。

分数分布的集中性描述

算术平均（值）数和加权平均数

数据分布的离散性描述

表现数据离散性程度的量数，称为差异量数。差异量数一般有两类：一是用一组数据排序后，两端数据之差来表示数据的离散程度，有全距和百分位距。二是用一组数据中各个数据与集中量数之差来说明一组数据的离中趋势，有平均差、四分位差、方差、标准差和差异系数。下面对标准差和差异系数介绍一下。

（1）标准差

标准差用σ表示，标准差又称均方差，是常用的差异量数。为了克服量纲的问题，我们把方差再开一次根号，即得：

（2）差异系数

差异系数用C_v表示如下：

差异系数C_v是一个相对的量，它是无量纲的量，所以可以用它来比较不同数据组之间的差异性。例：为了防止出现差生，即防止班级学习成绩两极分化，只用平均数和标准差还不能很好地判断，可以用差异系数来判断。我们可以选定二级指标来判定两极分化的C_v范围，步骤如下：首先定无分化现象指标即一级指标。根据以往的经验，一般认为学生成绩均在60～100分之间为无分化现象，这时的平均分为80分。

所以设无分化现象的差异系数指标C_v为9%。

就是说某班成绩的差异系数C_v1≤9%视为无分化现象。有分化现象指标即二级指标，我们设－X＝50分，σ＝10为有分化现象的标准，则有分化现象的差异系数指标C_v2为20%。就是说某班成绩的差异系数C_v≥20%，认为是有分化现象。若某科成绩的C_v为20%≥C_v≥9%，可以说是有分化现象的苗头，应引起重视，研究解决的办法。

例　某班各科成绩的差异系数统计如下表：

作出其统计图如下：

由上图我们可以看出：

①在一级指标下即C_v＝0．09，有期中考试的化学、生物及期末考试的生物，差异系数C_v＜0．09，都无分化现象。

②在一、二级指标之间有期中的政治、语文、几何、物理及期末的政治、语文、几何、代数、化学，差异系数在0．09～0．20之间，都有分化的苗头，应引起注意。

③在二级指标以上，有期中的英语、代数和期末的物理、英语，C_v≥0．20，都有较大的两极分化，要研究解决方法。

④还可以看出政治和物理较稳定，两次考试的差异系数变化不大，代数、语文、英语的差异系数在减小，而几何、物理、化学的差异系数在增大。这些重要的信息对于学校的管理者、教师都是很有价值的。

二、相关系数

相关关系，我们一般用相关系数r来表示，表示二组变量之间的相关关系的称为简相关，简相关中包含了积差相关系数、等级相关系数、点双列相关系数和φ相关系数；而讨论两个以上变量之间的相关关系称为偏相关系数。

相关散点图

相关关系我们可以用一种十分直观的图形把它表现出来，这就是相关系数散布图，我们讨论两个变量之间的相关关系，其中一个变量设为X，当其取一个值时，必然有另一个变量Y的值与之对应，我们就可以逐点在一个直角坐标系中把它们描绘出来，就得到相关系数的散点分布图。

若用－X，－Y（分别为x，y数据的平均数）作为新的坐标原点，构成新的坐标系，则散点分布在一、三象限（向右上方向）为正相关。散点分布在二、四象限（向右下方向）为负相关。

散点分布为曲线则为曲线相关。

r的值在－1和＋1之间，即－1≤r≤1。

散点分布图除可看到相关程度外还可以看出班级同学学习的变化，如下图：

由图可见在一、三象限的同学基本保持原有的水平，如1，6，11，9号同学期中考试和期末考试的成绩都在平均分之上，同样8，13号同学期中、期末考试成绩都在平均分以下。一象限为优等生，三象限为差生，而在二象限的2，5号同学大有进步，他们期中考试成绩在平均分以下，但是到期末考试成绩都上升到了平均分之上。在四象限的3，4，10号同学却退步了，他们期中考试成绩都在平均分之上，而到期末考成绩都下降到平均分以下。这些信息对教师和学生管理者都是很有用的。

三、几个有关考试的知识介绍

1．常模参照性考试

它是依据测验集体的常模，一般是指考试集体的平均成就，如平均数、标准差，这些都是相对稳定的常规量数，用它来解释分数的考试就称为常模参照性考试。它主要是用于区分考生的差异，一个考生的成绩好坏程度只有和别的考生或常模作比较时才能知道。它主要用于大规模的筛选性考试，如高考，此时往往用标准分来报告考生的成绩。关于标准分我们下面会有介绍。

2．目标参照性考试

它是参照既定的目标（如既定的考查目标）来解释分数的考试。主要是用于描述考生达到既定目标的程度，不以区分考生为主要目的（目标参照性考试的区分性主要体现在目标上），其评分的基准是建立在测试集体之外。如单元测验、学科考试等，它们的目标就是60分及格。

（1）主观性试题

主观性试题的正确答案可以用多种形式来表达，判卷往往根据教师的主观经验给分。

（2）客观性试题

正确答案具有唯一性，也就是说不论由谁来判，一道题都只能给出同一个分数。这是客观性试题的主要优点，还有就是客观性试题便于计算机的命题和阅卷。

3．考试的质量指标

我们如何来判断考试本身的质量呢？一般有考试信度、效度、难度和区分度四个指标，分别介绍如下。

（1）考试的信度

对任何一项测量，如果能对同一个对象实施多次，多次测量结果的一致性适度和稳定性适度就称为信度。某次测量的一致性越高，稳定性越大，这次测量的结果就越可靠，也就越可信，即这次测量的信度越高。这是信度的一般性定义。

式中，x_i为奇数号题的第i道题得分；y_i为偶数号题第i道题得分；x为奇数号题得分的平均分；y为偶数号题得分的平均分；n为奇数号题（偶数号题）数目；σ_x为奇数号题的标准差；σ_y为偶数号题的标准差。（信度的计算，不同问题有不同的方法，这里用的是折半信度的计算方法）

（2）考试的效度

反应一项考试实现既定目标成功程度的指标。即指考试的有效性程度或可靠性程度。我们在组织一项考试之前总是要具体规定它所要实现的目标，然后就要把考试的目标转化为可以测试的东西，再就要使测试的实际内容恰是我们企图要测试的内容。

（3）考试的难度

难度是指试题的难易程度，它是试题对学生知识和能力水平适合程度的指标。试题的难度不但对题目的区分度有直接的影响，而且对试卷的信度和效度也有较大的影响。在常模参照性考试中要求试题的难度适中，即大多数题目难度在0．3～0．7之间，少数题目可以在这两边且题数（或题分）大体相当，使整个试卷的平均难度为0．5左右（0．45～0．55）。因为只有适中的题目难度，才能使试题产生最大区分不同程度考生的效果，也才能使考生的得分呈正态分布。而那些全部考生都能做或都不能做的题目则应删去。

难度的计算：

①二值性试题的难度计算

二值性试题的难度计算式表示如下：

式中，P为难度；k为某题中答对的人数；n为考生人数。显然0≤P≤1。

要指出的是，这里所指的难度P实际上是容易度（即通过率、答对率或得分率），真正的难度（指不通过率、答错或失分率）为1－P。但人们已经习惯了前一种表示方法，我们当然也采用前一种方法。

②非二值性试题的难度计算

式中，w为某题的满分值；表示该题中得分的平均分。显然在w中的比重大，则表示该题较易；反之，则较难。

③“二端分组法”求试题难度

在大规模考试中，常用“二端分组法”来计算试题的难度。不管是选择题或是论述题均适用这种方法，而且还可以同时计算试题的区分度，因而这种方法受到广泛的欢迎。二端分组法计算试题的难度其步骤是：首先把考生的总分进行由高分至低分地排序；其次是从最高分开始向下取27%的人作为高分组，再从最低分开始向上取27%的人作为低分组；然后按前面介绍的方法计算出高分组的难度P_H和低分组的难度P_L；最后用下面的式子计算整道题的难度。

式中，P_H为高分组的难度；P_L为低分组的难度。

（4）考试的区分度

区分度亦称为题目效度，是试题对考生不同的知识与能力水平的鉴别程度。区分度好的题目，能把不同水平的考生有效的区分开来，以利甄别。由于在常模参照性考试中较重视区分不同水平的考生，因而较重视题目的区分度，要把区分度低的题目删去；在目标参照性考试中虽不十分强调区分度，但也不允许有负区分的题目。因此区分度也是衡量试题质量的重要指标。

区分度的计算：

①二值性试题的区分度计算

由于二值性试题只有“对”或“错”两种情况，所以一般用下列方法（均属内部一致性系数）来计算题目的区分度。

点双列相关系数法：

当考试总分为连续变量（不一定要正态分布）时可以用此法计算题目的区分度。其公式为

式中，P为答对该题的考生百分数，即该题的难度；Q为答错该题考生的百分数，Q＝1－P且有P＋Q＝1的关系；σ_X为全体考生总分的标准差；为答对该题考生总分的平均值；为答错该题考生总分的平均值；r_PQ为P，Q两部分的点双列相关系数，即该题的区分度。－1≤r_PQ≤1。

②非二值性试题的区分度

对非二值性试题，某题的区分度可以用计算各位考生在该题上的得分（x）与该生的总分（y）之间的相关系数来评估。这里有一个先决条件就是：总分是能够区分不同水平的考生的。这样，如果某题与之相关程度很大，那么这题显然也可以区分不同水平的考生。相关法求得的区分度最高为1，表示题目对考生的水平有完全的鉴别力，即好生满分，差生得0分；得到区分度为0表示题目无法区分不同水平的考生，即好生、差生得分都差不多；相关系数出现负值即负区分，表示题目对考生有相反的鉴别力，差生得分高，好生反而得低分，这是不正常的情况。用相关法求得的区分度，其显著程度需作统计检验。

③二端分组法

和前相同，选27%的高分试卷作为高分组，选27%低分试卷作为低分组。将某题高分组的答对率与低分组的答对率之差，作为该题的区分度估计值。即

利用难度、区分度指标作试题质量分析的实例，（见下表）分析四道选择题的质量步骤如下：

①请有关专家、有经验的教师按照教学大纲的要求，并预定的题数，加倍（1～3倍）制定测验题，以提高试题的信度和效度。

②选取同年级学生370人作为测验的样组（370×27%＝100）这有利于以后的计算，选取的方法是随机抽样。这些学生都参加初编试题的考试。

③把370份试卷按个人的总分从高到低排序，再从最高分向下选取100人（27%）组成高分组，从最低分向上选取100人（27%）组成低分组。

④计算高分组和低分组每道题答对的人数。

⑤按难度P＝（P_H＋P_L）／2，区分度D＝P_H－P_L的公式分别计算出每道题的难度和区分度如下表所示：

下面是分析比较学生在各道题中的反应。

区分度分析：区分度适合范围在0．4～0．6之间，第一题D＝0．36符合要求；第二题D＝－0．06为负向区分，不符合要求；第三题D＝0．42符合要求；第四题D＝0．05区分度太低，不符合要求。

难度分析：难度适合范围在0．3～0．7之间，第一题P＝0．44适中；第二题P＝0．31适中；第三题P＝0．71偏易；第四题P＝0．13较难。

对各题的选项配列分析：对选择题的配项即非正确答案的设置是否合理也要进行讨论，用选项的迷惑度来讨论，选项配列较好的表现是非正确答案高分组应答的人数较少，低分组应答的人数较多。第一题在C上应答高分组和低分组人数相等，这说明C项对高分组和低分组具有相同的迷惑度，不好。第二题未答的人数过多，要分析原因，另外B、C项上都是高分组应答人数比低分组多不适合。第三题A、C、D各项都是高分组应答人数比低分组少，选项配列都较好。第四题B、D迷惑度太强。

确定可以选用的测验题：综上所述，第三题D＝0．42符合要求；P＝0．71稍偏易一些；选项都好，是这些题中最好的题。可以进题库。第一题D＝0．36，符合要求；P＝0．44适中；把配项C做些修改就可以用。第二题和第四题都要作重大的修改。

⑥确定考试用试卷，从上面的分析中选择适合的试题作为考试用试卷。

从上述分析中看到，这种分析方法及结果对教学管理、教师积累考试的经验、题库的建设都是十分有益的。

（5）考试的标准分

百分制分数的不合理性是显而易见的，因为它的原始分数是不等距的，即各门课程的1分之差是不等距的。标准分就是为克服这个缺点而产生的。

①标准分的定义

标准分是以标准差为单位，表示某一个分数在集体中所处的相对位置的量数，用Z表示。

式中，Z为标准分；X为原始分数（百分制分数）；－X为全体考生原始分数的平均分；σ为本次考试的标准差。

从上式中可以看出Z实际上是标准正态分布中e的指数。

标准分的意义：从Z式中可以看出：它既考虑了数据的离散性（X－－X），又考虑了数据的集中性，更加具有合理性；标准分将考生的原始分数与平均分相比较，使考生成绩在全体考生成绩分布中的位置一目了然。Z＞0表示它在平均分以上，Z＜0表示它在平均分以下；在标准分表达式中被标准差除，它就成为一个无量纲数。这样它不仅可以把成绩分布不同的各个分数相比较，也可以把原来具有不同单位，不同量数进行比较以说明它们在各自分布中的位置高低。

例　有三个学生，两门课程得分如下表所示：

由上表可以计算得A课程的－X＝90，σ＝0．8；B课程的－X＝78．33，σ＝6．24。由此可以计算出各分数的标准分。如果按照百分制分数排名次是乙生第一名，甲生第二名，丙生第三名；若按照标准分排名次则甲生第一名，乙生第二名，丙生第三名。这是因为在百分制分数中甲生A门课程比乙生高1分，而B门课程却比乙生低5分，总共低了4分。但是我们知道，在百分制分数中，各门课程中1分是不等价的，简单地把各门课程的分数相加是不适合的。因为A门课程平均分是90分，标准差是0．8，而B门课程的平均分是78．33，标准差是6．24，所以A门课程的1分价值就大，B门课程的1分价值小。因此按照标准分来排名次是甲生第一名，更具合理性。

②标准分的应用范围

计算多学科的成绩，比较不同学科成绩；

可以确定考生个体在群体中的地位；

可以制定个人在多学科中的发展对照表；

制定各个班级的成绩对照表。

由前述标准分的性质可知：若原始分数服从或近似服从于正态分布时，标准分才服从于平均数为0、标准差为1的标准正态分布。这时就可以从正态分布表中查到标准分对应的概率p，它就是百分位数。这个百分位数也是原始分数在该总体中所处的具体位置。利用这个性质我们可以解决一些实际问题。

③标准分的转换

标准分有最大的缺点是带有多位小数和负数，这很不合乎人们的习惯。为了避免这些缺陷，通常是采取把标准分进行转换处理。其转换的一般公式为：

T＝KZ＋C

上式的含义是：把Z扩大K倍后，平移到C这个中心位置。由于这是一种线性变换，因而它可以保持标准分的优点，并对其缺点有所克服。T称为标准分的转换分数。而K、C为转换常模。转换的要求是：

第一，K值为不小于原始分数的标准差。这是防止转换分数“高分受损，低分受益”的措施。

第二，C≥3　K～4　K。当Z在［－3，3］时，则C≥3　K。这一般适用于普通的考试；当Z在［－4，4］时，C≥4　K这一般适用于大规模考试。这是防止转换分数出现负值的措施。在进行标准分转换时，应根据上述的两个条件选择适当的K和C值，并要考虑便利计算和尽量适合于人们的习惯。例如，当时原始分数的标准差小于10时，可取转换常模K＝10、C＝50；这时的转换分数在［10，90］之间，（Z值约在－4～4之间）。这样的转换分数基本符合人们表示分数的习惯。在广东省高考标准化试验中，由于考生较多，为了更有效地区分考生，采用了K＝100，C＝500的转换常模（转换分数在100 至900之间），亦收到了良好的效果。一般K值愈大，区分考生分数愈细致。

以上只是就教育测量学中几个小问题作些介绍，如能引起各位对考试分数的研究兴趣，则甚为高兴。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈