首页 理论教育 教学测量与评价的方法和技术

教学测量与评价的方法和技术

时间:2022-03-03 理论教育 版权反馈
【摘要】:与教学目标相一致,教学评价也应包括认知、情感和技能三个方面。1845年,美国波士顿城第一次进行了全城范围的书面考试,从而拉开了现代标准化测验运动的序幕。20世纪20年代初,在美国教育测验专家麦柯尔的帮助下,北京师范大学、北京大学等校的教授和学生编成测验四十余种。例如,美国教育测验中心举办的托福考试,用来考核非英语国家的英语水平,决定是否采取留学和授予奖学金。是非题可用于测量不同水平的教学目标。

第二节 教学测量与评价的方法和技术

与教学目标相一致,教学评价也应包括认知、情感和技能三个方面。对于认知和技能领域的学业成就,最常用的教学评价手段是标准化成就测验和教师自编测验。而对于情感以及道德行为表现则常常采用非测验性的评价手段,如案卷分析、观察、问卷量表以及谈话等。这些非测验性的评价手段也可作为学业成就评价的补充。

一、标准化成就测验

标准化测验的编制开始于20世纪初,但标准化测量的观念由来已久。1845年,美国波士顿城第一次进行了全城范围的书面考试,从而拉开了现代标准化测验运动的序幕。我国的标准化测验,应以1918年俞子夷编制的小学国文毛笔书法量表为起点。20世纪20年代初,在美国教育测验专家麦柯尔的帮助下,北京师范大学、北京大学等校的教授和学生编成测验四十余种。当时,中华教育改进社还组织人力用测验进行了大规模的小学调查。随后,艾伟和其他人士编制了小学各科测验和诊断测验,后来这种研究被中断。虽然我国最早使用测量的方法选拔人才,但在教育测验方面还远落后于发达国家。

(一)标准化成就测验的含义及特点

标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业成就水平的测验。其特点大致为:测验是由专门机构或专家学者按一定测验理论和技术,根据全国或某一地区所有学校的共同教育目标来编制的。所有受试人所做的试题、时限等施测条件相同,计分手段和分数的解释也完全相同。例如,美国教育测验中心举办的托福考试(TOEFL),用来考核非英语国家的英语水平,决定是否采取留学和授予奖学金。

(二)标准化成就测验的种类

标准化成就测验分为很多种,常用的分类方法将标准化成就测验分为成套调查测验、特定学科测验,或诊断测验。成套调查测验是由一系列个别主题测验所组成,为特定水平的学生而设计。成套调查测验是应用最广泛的国家级常模参照的标准化测验。常用的成套调查测验如全国居民幸福感测验。特定学科测验是为了测验评价特定学科的技能,如阅读或数学,因为特定学科测验集中于特定学科领域,所以它们在评价技能时往往比成套调查测验更详细、更广泛。诊断测验是由对特定学科学习的相对深入的评价所组成,其目的是确定学生的特定学习需求,以便通过常规教学或补习教学满足这些需求。用标准化测验进行诊断最多的两个科目是阅读和数学。在很多情况下,诊断测验是在结束了相当多的教学工作之后进行的,成就测验有时用于诊断目的(如刚提到过的阅读测验)。但是,很多情况下,进行诊断必须结合观察与成就测验两者。典型的诊断顺序可能涉及教师进行的非正式观察、成套调查测验、小组诊断测验,以及个别诊断测验。

(三)标准化成就测验的优越性

标准化成就测验的优越性在于:

1.客观性

在大多数情境下,标准化测验是一种比教师发展出的测验更加客观的测量工具。

2.计划性

专家在编制标准化测验时,已经考虑到所需的时间和经费,因此标准化测验比大部分的课堂测验更有计划性。

3.可比性

标准化测验由于具有统一的参照标准,使得不同考试的分数具有可比性。

(四)标准化成就测验的不足

1.与学校课程之间的关系很不协调

在我国,每个地区的教学状况还存在着一定的差距,因此,可能不少地区学生所学到的内容与标准化样本所学的东西有差别。这就要求教师在选用标准化测验前,仔细查阅内容效度,使得测验的目标与评价的目的相匹配。

2.测验结果的不当使用

我们通常利用标准化成就和能力测验对学生分类和贴标签,容易对个体造成不良影响。

二、教师自编测验

(一)自编测验的含义与特点

教师自编测验是由教师根据具体的教学目标、教材内容和测验目的而自己编制的测验,是为特定的教学服务的。由于学校科目繁多,教学检查需经常进行,而教师自编测验操作过程容易,应用范围一般限于本班、本年级,施测手续方便,是学校中最多和教师最愿意用的测验。教师自编测验通常用于测量学生的学习状况,而标准化成就测验则用来判断学生与常模相比时所处的水平。

(二)自编测验的优势

主要是:①操作过程简单;②施测手续方便;③应用范围一般限于教师自己所教的学科,在实际教学中颇为有用。

(三)测验前的计划

(1)确定测验的目的。

(2)确定测验要考查的学习结果。

(3)列出测验要包括的课程内容。

(4)写下考试计划或细目表。细目表是将考试具体化的最重要的工具,使得测验能够与教学的目标和内容保持一致。细目表的形式是两维表,一般纵栏表示学习结果,横栏表示课程的内容或范围。中间的栏目,就是教师根据自己的情况填上在测验中计划测量多大比例的学习结果和课程内容。

(5)针对计划测量的学习结果,选择适合的题型。自编测验包括客观题和主观题两种类型。教师使用哪一种类型的题目是由测验的目的、内容和时间决定的。

(四)自编测验的类型

1.客观题

客观题具有良好的结构,对学生的反应限制较多。这类题目包括选择题、是非题、匹配题和填空题等。

(1)客观题的类型

①选择题。选择题是由题干和两个或更多的选项组成的。题干可以是直接提问或者以不完整的句子的形式出现,目的是为了设置问题情境,而选项则提供可供选择的答案,包括一个正确答案和若干具有干扰性的错误项或迷惑项。学生的任务就是阅读题目,再从一系列选项中挑选出正确的项目。

教师在出题时,要综合考虑题干和选项,使整个题目清楚明了。选项的数量一般没有统一的规定,大多是4~5个。良好的选择题,题干应该明确简单,而选项又深具迷惑性。选择题还有一种常用变式,选项中有一至多个正确答案,即通常被称为多选题。

选择题可适用于不同材料,可考查学生多方面知识,加上评分客观、省时,因此在标准化测验中广泛使用。但它答案固定,测不出组织材料的能力和创造力,同时由于题量大,要为每个题目编写迷惑答案,任务比较繁重。

②是非题。是非题又称正误题,此类题学生需要识别、选择出正确答案。常用的形式是,陈述一句话要求学生判断对错或是非。是非题可用于测量不同水平的教学目标。

是非题形式简单,能够在一份试卷内覆盖大量的内容。教师在评判时也较客观,计分简便省时。但是,一个重要的问题是:学生只有两种选择——对或错,容易猜测。

③匹配题。匹配题是另一种可提供多种选择的考试形式。通常,题目包括两列词句,一列是问题选项,一列是反应选项。学生根据题意按照某种关系将左右的项目连接起来。匹配题形式简单,能够有效地测量学生对知识联系的掌握情况,且易于计分。但是,它只能用于测查彼此存在着简单关系的知识。

④填空题。填空题是呈现给学生一句或一段不完整的话或者直接提问,要求学生简要做答。填空题可以考查学生对知识记忆和理解,以及推理和判断能力。填空题的问题在于,学生的答案各不相同甚至还会出现出人意料的答案,学生的答案还会受笔迹、用词等无关因素的影响。

(2)客观测验的优缺点

客观测验的编制虽然困难、费时,但在学校里却很流行,因为这种测验有其一定的优点:①排除了评分的主观性与不定性,教师可采用预先规定的准确而不变的记分标准,评分不仅客观,而且迅速。②测题一般经过仔细选择和分类,从而构成一个代表性的、包括一定内容和要评价的某种能力的样本,这意味着教师是按照假定学生应该掌握的一些事实、概念、原理及其应用时表现出来的方式,将教学目标准确而具体地规定下来的。这样,可以提高测验的效度。③样本具有代表性和广泛性,各个主题的分量又有轻重之别。一般来说,客观测验取样的广泛性与系统性是其他测验方式所不及的,而这一点有助于测验信度的提高。

客观测验也有其缺点或局限:①编制测验困难。许多客观测验所测量的,与其说是主要的概念、原理和关系的真正理解以及解释事实和应用知识的能力,毋宁说是对比较琐碎而无联系知识项目的认识。②不善于编制测验项目,致使学生凭借编制者无心的暗示去猜测正确的答案。③难以测量高层次的能力,如学生自动产生适当假设的能力、收集有效的实验数据的能力、构建有说服力的论据的能力、开展创造性工作的能力等等。这些能力得采用其他的测量方法。

2.主观题

主观题则要求学生自己组织材料,并采用合适的方式表达陈述出来。这类题型包括论文题及问题解决题。教师在评分时,对学生的回答需要给出不同量的分值,而不仅仅是满分或零分。

(1)主观题的类型

①论文题。论文题是指要求学生用文字论述方式阐述相关观点的题目,回答字数可以从几段到几页不等。一般较常使用的有两种类型,有限制的问答题和开放式论文。有限制的问答题,是指教师对回答的内容和长度都有规定,如平时测验中的简答题等。例如,说明西安事变中的重要人物、事情经过以及结果。开放式论文,则允许学生在内容上可以自由选材,自由发挥,而且篇幅较长。论文题可以测验知识、理解或运用水平,也可考查学生的分析、综合、类比和评估知识的能力,还可考查学生组织信息或表达陈述某项意见的能力。

使用论文题也有不妥之处。首先,学生回答论文题需要花费很多时间。其次,对于熟悉自己学生的教师,在判卷时很难做到客观,导致信度较低。在评分时,经常出现一种现象——晕轮效应,即教师对学生的总体印象影响到对论文题目的评价。

②问题解决题。问题解决题是向学生提供一定的问题情境和目标情境,要求学生通过对知识进行组织、选择和运用等复杂的程序来解决问题。通常有两种形式,一种是间接测验,是采用纸笔测验来评价学生的学业成就或能力。学生在完成时,通常必须写出若干步骤或过程,以展现他的思路。评分时,按照步骤计分。如果缺少某些步骤就不能得分。问题解决题的另一种方式则是直接测验。例如,为了考查学生学习本节内容的情况,让学生编制一份测验刚学的应用题,由于它考查了学生处理实际问题的能力,所以有时又叫做操作评价。操作评价对于考查高级思维技能十分有效,但是往往费时费钱,而且主观性较大,并且效度也经常受到置疑。

(2)主观题的不足及应用

主观题考试的不足之处是:①主观题考试的题目只有几个,内容的样本常常缺乏广泛性和代表性,特别是评分困难,常常十分费力,且难免有主观性,所以信度和效度往往难以令人满意;②主观题考试有可能促使学生弄虚作假、东拉西扯和离题太远;③所编主观题试题容易,可能造成使用者对评价采取马虎的态度。

尽管主观题测验存在诸多不足,但在学校测评工作中仍占较重要的地位。原因有三:①主观题考试更适合于测量学生对学科结构的领会和材料内容理解的深度;②主观题考试有利于测定学生组织各种概念、整理各种证据、构思、确凿论据的能力,批判地评价各种观念和清楚令人信服地表述这些观念的能力;③主观题考试还能使教师窥控学生的独立性与创造性思维,洞察学生的认知风格、对问题的敏感性和解决问题的策略。

(五)命题的一般原则

(1)试题要符合测验的目的。测验目的不同,编制测验的取材范围和试题难度也就有所不同。

(2)试题内容的取样要有代表性,最好能代表该学科的全部内容。

(3)题目格式应多样化。

(4)语句要简明、清晰、易懂。

(5)答案应准确。

(6)测题应彼此独立,彼此考查知识点不能明显重复。

(六)有效自编测验的特征

1.信度

信度是指测验的可靠性,即多次测验分数的稳定、一致的程度,它既包括在时间上的一致性,也包括内容和不同评分者之间的一致性。例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素,评分是否可靠则要看评分标准是否客观和准确。

信度一般分为内在信度和外在信度,内在信度是指调查表中的一组问题(也可称之为题项)是否在测量同一个概念,即这些问题(题项)的内在一致性如何,能否稳定地衡量这一概念(变量或维度)。如果内在信度系数在0.8以上[1],则可认为这一组问题有较高的内在一致性。最常用的内在信度系数为克朗巴哈和折半信度。外在信度是指在不同时间进行测量时调查表结果的一致性程度。最常用的外在信度指标是重测信度,即用同一问卷在不同时间对同一对象进行重复测量,然后计算一致性程度。用同一问卷在不同时间对同一对象进行重复测量的结果一致性越吻合,说明外在信度越高。

2.效度

效度是指测量的正确性,即一个测验能够测量出其所要测量的东西的程度,它是科学测量工具最重要的质量指标。效度考虑的问题是:测验测量什么?测验对测量目标的测量精确性和真实性有多大?效度的重要性大于信度。但效度并不是绝对的,而是相对的,任何一种测验只是对一定的目的来说是有效的,对其他目的和用途却不一定有效。例如:“Is photography an art or science?Discuss.”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。

测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。信度是效度的必要条件﹐没有信度的测量工具就谈不上具有效度﹐但信度高的测量工具未必具有高的效度。

一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4~0.7之间,规模较大的测试其效度应在0.7以上。

3.区分度

区分度是指测验项目对所测量属性或品质的区分程度或鉴别能力。它是根据学生对测验项目的反应与某种参照标准之间的关系来估计的。项目区分度高低与测验目的密切相关,是衡量题目质量的主要指标之一,也是筛选题目的依据。项目的效度越高,其区分度越大,鉴别力越强。如果测试的区分度高,则该测试的信度必然理想,因此提高区分度是提高测试信度的方法。测题的区分度和难度关系也很密切。太难、太易的题目,区分度都不很好,只有中等难度的题,区分度才比较好。如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力差。

(七)自编测验的常见错误

(1)教师过于相信自己的主观判断而忽视测验的信度和效度指标。

(2)许多教师对测验准备的重要性缺乏足够的认识,对测验准备不够充分,甚至没有准备。

(3)许多教师编制的测验太简单,题量太小。

三、非测验的评价技术

在实际教育中,前述纸笔测验并不是收集资料的唯一途径。教师还可使用了许多非测验的评价技术,尤其是情感领域的教学评价更需要采用非纸笔测验。

(一)案卷分析

案卷分析是一种常用的评价策略,其内容主要是按照一定标准收集起来的学生认知活动的成果。例如,学生的家庭作业或课堂练习、论文、日记、手工制作的模型、绘画等各种作品。对学生的作品进行考查分析,并形成某种判断和决策的过程就是案卷分析。

(二)观察

通过教学过程中的非正式观察,教师也能够收集到大量的关于学生学业成就的信息。这种观察不只限于智能的发展,还包括学生生理、社会和情绪的发展。为了确保观察的有效性,教师应注意自然地对学生进行全面系统的观察,然后客观、详细地记录下观察信息。

1.行为检查单

教师可以使用检查单来记录其在教学中的观察结果。检查单一般包括一系列教师认为重要的目标行为,通常采用有/无的方式记录,但有时也记录下次数。行为检查单使用简便易行,对于教师非常有用,尤其在课堂上,教师可以利用检查单及时记下所观察到的行为,便于指导和帮助学生。如果行为是属于某一个好-坏连续体上的某一点,那么更适宜的方式是等级评价量表。当观察目标是具体、特定的经过了明确界定的行为时,检查单非常有效。应用检查单法时要注意:一是检查单把所要观察的行为分成具体细目,只要这些行为一出现,就可以在相应的条目上做出标记。二是这些指标便于衡量。表14-1是上课时观察学生认知方面的个别差异的检核表。

表14-1 学生认知方面个别差异的检核表

img30

(表中“√”为观察十分钟内有该项行为表现的标记)

2.轶事记录

轶事记录是描述所观察的事件。许多教师在他们的教案或工作日记上,都有轶事记录。与检查单相比,轶事记录可提供比较详细的信息,这些记录一般按照发生时间排列的。教师可以在事先有明确的观察目标,就某一方面的行为进行记录;也可以没有明确目的,事后再专门分析或考查某一件事,这时教师就需要记下很多资料,甚至包括一些无关信息。轶事记录要求教师纯粹记载下所观察到的内容,而不要掺杂进个人的意见或观点。记录事件时,应注意以下两点:一要尽可能客观真实;二是要抓住典型特征,避免记“流水账”。

3.等级评价量表

等级评价量表对于连续性的行为,可能更为有效。它可用于判断某种行为的发生频率,以及某种操作或活动的质量,使得观察信息被量化。评价量表是一种间接的观察技术,通过量化所观察的信息,可以迅速简便地获得概括化的信息。评价量表和行为检查单有一定关系,两者都要求教师对学生的行为进行判断,可以在观察过程中或结束后使用。但是它们的评价标准不同,检查单只需要做定性的判断,而等级评价量表是做定量的判断。以某生在适应方面的人际关系行为特质为例,评定量表可设计为以下的形式(见表14-2)。

表14-2 行为特质:在社会性活动中人际关系的表现

img31

(三)情感评价

许多时候,教师有必要针对学生的情绪、学习动机、个人观点等进行评价。固然,我们可以借助已有的量表,也可以自行编写开放式问题、问卷等,对学生的情绪、学习动机、个人观点等进行评价。而在对结果的评价时,教师需要写一份详细的报告,形式类似于观察报告。

四、教学评价结果的处理与报告

(一)测验结果的分析

测验结果的分析主要包括对测验本身的分析和对教学活动的分析两个方面。

1.对测验本身的分析

对每个测验题而言,主要应分析的是其难度和区分度;对于多选题还要分析备选答案的合适度。

对整个测验而言,应分析其信度和效度,并确定其分数的分布。

2.对教学活动的分析

对教学活动的分析,首先要对测验中的错误进行登记和分析,然后对错误进行详细分析以说明教学中存在的问题,最后针对教学中存在的问题提出改进措施,促进学习。

(二)教学评价结果的处理方式

教学评价结果的处理方式主要可以归纳为两种类型:评分制与评语制。

1.评分

评分时必须以一定的比较标准为依据,有绝对标准和相对标准两种。绝对标准是以学生所学的课程内容为依据、与其他学生的成绩无关,它所对应的评价方式是标准参照评价。相对标准是以其他学生的成绩为依据,对应于常模参照的评价,评价不仅与学生自己的成绩有关,还与其他学生的成绩有关。许多研究表明,分数评定往往导致学生形成低水平的自我评价,对学习成就倾向于外部归因。鉴于过分重视分数可能导致的消极影响,教师和家长要正确地对待分数,认识到分数只能大致反映学生的知识和能力水平,不要作绝对性的评价判断。

在评分过程中,常常存在计分主观性问题。因此,评分标准一定要与测验的编制计划和实际的编制工作保持连续性,确保整个评价活动是根据统一的标准进行的,保证评价结果是教师所预期的信息,具有较高的信度,能够对教学活动发挥积极作用。

合理的评分过程应包括如下步骤:①搜集有关学生的信息,信息可以来源于不同类型、性质的测验甚至观察的评价方式。例如,教师对学生期末学习成绩的评价,通常是期末考试成绩占70%,平时作业和考试成绩占20%,课堂表现占10%;②系统地记录下评价的结果,并随时保持最新的结果;③尽量将搜集的资料量化,用数据来表示学生的学习情况;④为了把评价的重点放在最终的学习成就,教师需要加大最后测验得分的权重;⑤评价应该以成就为依据,而其他特征的评价,不要和成就的评价混杂起来。

评分注意事项:①评分标准要客观公正。在评分过程中,常常出现评分主观性问题,应确定好评分标准,力求取得较好的信度,对教学活动发挥积极作用;②评分标准要规定答案要点及可接受的变式;③评分标准要依据题目的难易及要点的主次配给分数;④评分时要注意分析评分和综合评分相结合。分析评分是要按要点给分,综合评分即从整体上考察,分别为不同等级确定出样本;⑤评分标准应注意内容,不宜注重形式。

2.评语

评语是用简明的评定性语言记述评定结果。评语可用于补充评分的不足,把那些难以从分数上反映出来的问题反映出来,如学生的学习特点、学习态度、兴趣爱好、主要优缺点、今后需注意的事项等。评语没有固定的模式,给每个学生的评语要求简明、扼要、具体、针对性强,不可模棱两可、一般化。

(三)合格与不合格

有些课程采用合格与不合格来评价学生的成就。教师可以根据学生是否完成了每次作业来评价,也可以根据学生的几次作业情况评分,甚至评分的标准可以是学生的出勤情况。评价方式比较灵活。

(四)其他报告方式

除了常用的评分方法,教师还可以使用其他方式来报告评价结果,如教师写学生的个人鉴定或定期的综合评价,提供给家长和学生。观察报告也是一种报告评价结果的形式。此外,通过与家长面谈,也可以交流关于学生的学习、行为和态度等方面的资料。教师在报告学生的学习结果时,必须做到报告结果力求准确,结果获得确切解释。

思考题

1.教学测量与评价有什么功能?

2.说明标准化成就测验的特点及优越性。

3.有效自编测验有哪些特征?

4.简述教学测量与教学评价的关系。

5.如何对教学评价结果进行处理与报告?

6.简述非测验的评价技术。

7.简述教学评价中合理评分的步骤。

实例分析

1.以下是一个试卷质量分析过程的说明及举例,请你掌握试卷质量分析的基本过程,并实际应用自己考试过的一份试卷进行试卷质量分析。

如何进行试卷质量分析

试卷分析是对教学测试的反思、是对教师教的反思、也是对学生学的反思,试卷分析是提高命题水平必不可少的一个环节。试卷分析包括:①介绍考试基本情况;②介绍试卷的特点;③统计学生解答情况;④对今后教学的启示;⑤对今后命题的建议。

一、介绍考试类型

试卷分析要说明本次考试是什么类型、什么范围的考试,考试的目的是什么,试题由什么人命题的。

二、介绍试卷的特点

试卷分析要介绍试卷考查的范围、知识点及分值、试卷结构(题型比例、分值)、命题特点等。

三、统计数据

试卷分析要统计有关数据,数据来源:全体考生,也可随机抽取样本,样本容量尽可能大一些。有关数据包括:

(一)统计数据(难度、区分度)

1.难度计算

难度指应试者解答试题的难易程度,它是衡量测评试题质量的一个重要指标参数。客观题难度计算公式:P(难度指数)=试题答对人数/考生人数;主观题难度计算公式:P=试题平均得分/试题满分。试卷难度计算公式:P=为平均分,K为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。当然,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。

2.计算方法

(1)客观性试题难度P(这时也称通过率)计算公式:

P=k/N(k为答对该题的人数,N为参加测验的总人数)

(2)主观性试题难度P计算公式:

P=X/M(X为试题平均得分;M为试题满分)

(3)适用于主、客观试题的计算公式:

P=(PH+PL)/2(PH、PL分别为试题针对高分组和低分组考生的难度值)

在大群体标准化中,此法较为方便。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。

例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的难度为:

PH=20/27=0.74PL=5/27=0.19P=(0.74+0.19)/2=0.47

整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。

(二)区分度

1.区分度:指测验对考生实际水平的区分程度或鉴赏能力。它是题目质量和测验质量的一个重要指标。一般要求试题的区分度在0.3以上。区分度的评价标准如下表:

img32

2.计算方法:

(1)客观性试题区分度D的计算公式

D=PH-PL(PH、PL分别为试题高分组和低分组考生的难度值)

PH、PL的计算方法同上。

例2:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的区分度为:D=PH-PL=0.74-0.19=0.55

(2)主观试题(非选择题)区分度D的计算公式

D=(XH-XL)/N(H-L)

(XH表示接受测验的高分段学生的总得分数,XL表示接受测验的低分段学生的总得分数,N表示接受测验的学生总数,H表示该题的最高得分,L表示该题的最低得分)

整个试卷的区分度,是所有试题区分度的平均值。

(三)试卷统计数据(平均分、标准差、难度比例、区分度比例)

1.平均分、最高分、最低分

2.分数段

3.标准差

标准差是反映学生成绩离散趋势的指标,表示学生成绩的分化程度。计算公式:S=img33,式中:S表示标准差,Xi表示第i位考生成绩,img34表示平均分,N表示考生总数。

4.变差数

变差数是反映学生成绩差异程度的指标,用它可对不同学科的学生成绩分化程度作出比较。

计算公式:img35,式中:CV表示变差数,S表示标准差,X表示平均分。

5.利用excel软件计算有关数据

打开“excel”/选择存放位置/点击“”//点击“统计”/选择“类别”/点击“确定”/选择数据/点击“确定”。

类别一:“平均分”点击统计中的“AVERAGE”(参数算术平均数)

类别二:“最高分”点击统计中的“MAX”(一组数值中最大值)

类别三:“最低分”点击统计中的“MIN”(一组数值中最小值)

类别四:“标准差”点击统计中的“STDEVP”(给定样本总体标准偏差)

类别五:“分数段”点击统计中的“COUNTTF”(数字参数和合数字的单元格的个数)也可利用“excel”的计算功能,点击“=”/输入公式来计算。

(四)相关图表

分数段分布图、各题难度分布图、各题区分度分布图、难度比例统计图、区分度比例统计图,可利用excel软件统计画图,并作必要的文字说明。

四、学生答题情况统计

各题的好的解答、错误的解答及原因分析。

五、对今后教学的启示

六、对今后命题的建议

2.下文是一篇记者的采访报道,请思考文章中给我们提示的国外学校有哪些教育新理念,也请谈谈当前我国学校教育评价体制中存在哪些弊端。

教育评价新理念[2]

在北京有一所叫BISS的国际学校,来自30多个国家的130多名学生在这里学习。学校总监是一位有多年国际学校管理经验的新加坡人。新华社记者对他进行了一次采访。

记者问:“你们以考试成绩衡量学生的好坏吗?”

“不,”回答很果断,“考试仅仅是一种辅助手段。除了成绩,更重要的,老师还写详细的评语。”

记者又问:“那么对你们来说,一个好学生的标准是什么呢?”

这个非常普遍和简单的问题,没想到总监竟感到奇怪。他看着记者追问的目光,半天才说出一句:“我们没有好学生、坏学生之分。”

“从来不评好学生、三好学生什么的?”这回轮到记者大惑不解了。因为在中国,三好学生意味着什么大家都知道。

“从来不评”,总监好像转过弯来了,“学生不是学习好就好或者打球好就好,这样不行,每个人都有自己的特长、价值、人格,包括很多方面,有的这方面好,有的哪方面好,今天他这件事好,明天他那件事好,怎么能断言谁是好学生,谁是坏学生呢?”

记者:“学习成绩不好总算缺点吧?”

“不。”回答又是很果断,“有的孩子英语成绩不太好,可他进校的时候一句英语都不会说,做了很大的努力,有了很大的进步,这不能叫缺点这叫优点。”

“那你们没有调皮捣蛋的孩子?”记者特别想知道他们到底有没有坏孩子,如果有又是什么样的?

“没有捣蛋的,有顽皮的。”看来总监始终和他的学生坐在一条板凳上。

记者并不满足,非打破砂锅问到底:“什么是顽皮的?”

“比如有一次我们带他们去一个游泳馆游泳,有个孩子当着管理人员的面说:‘这是我到过的游泳馆中最差的一个。’我们给他讲了道理,这是不尊重别人,后来这个孩子向管理人员道了歉。”我们的记者终于抓住了一个“坏典型”,可是像这种不尊重人的错,在我们中国人的眼中又算什么呢?

【注释】

[1]测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70~0.80之间为可接受性系数。

[2]参考http://www.biss.com.cn/。标题由书作者加。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈