首页 理论教育 教育实验的效度

教育实验的效度

时间:2022-03-08 理论教育 版权反馈
【摘要】:根据不同的标准,教育实验效度具有不同的分类。统计结论效度是有关决定实验处理效应的数据分析程序的效度检验。在编制一个测验后,编制者需要确定其结构效度,其方法主要有以下几种。根据所要预测的效标的性质和种类来推断结构效度,有两种做法:其一,根据效标把被试分为两类,考察其得分的差异。若两组被试得分差异显著,则说明该测验有效,具有较高的结构效度。结构效度的最大贡献是可以用来提出和验证假设。

第二节 教育实验的效度

一、教育实验效度的分类

效度即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。根据不同的标准,教育实验效度具有不同的分类。(4)

(一)从研究结果和适用范围的角度分类

从研究结果和适用范围的角度,效度可以区分为内部效度和外部效度。

1.内部效度

内部效度是表示实验所提供的自变量与因变量之间因果关系明确程度的一种指标,即因变量的变化在多大程度上来自自变量。内部效度实质上反映了实验对变量间因果关系揭示的准确程度,是一项实验认识功能发挥得如何的标志。

2.外部效度

外部效度是指研究结果能够一般化和普遍适用到样本所来自的总体,以及应用到其他总体中的程度,即研究结果和变量条件、时间和背景的代表性和普遍适用性。教育实验研究不仅要关心变量间因果关系的探讨,更要考虑实验结果在较大范围内的推广和应用,否则,将失去实验的意义。如果说,内部效度反映的是实验的认识论意义,那么,外部效度则是其价值论意义的标志。

(二)从研究工具和手段的角度分类

从研究工具和手段的角度来看,效度可以区分出内容效度、统计结论效度、效标效度、结构效度、理论型效度、描述型效度和解释型效度。(5)

1.内容效度

内容效度是用来分析评估表中阐述的要素以及个体各要素的评估成绩反映其绩效的程度,评估表内容效度反映了评估表的内部一致性,显示同一量表里的所有项目是否在测评同一维度。它提供了检查评估表在何种程度上避免了内容失误的一种方法。比如,评估表是设计来测量员工工作能力的,那么工作行为就与工作能力无关,应该删除。常用的内容效度检验法就是请专家按照一定的标准评价某评估是否具有代表性,例如运用评估表对员工进行评估时,为了分析内容效度,请10~20名专家对如下问题按“非常不相关”、“需修改否则不相关”、“尚可但仍需修改”、“非常相关”形成专家咨询问卷或者“合理”与“不合理”的是非法进行判断:评估要素与评估表结构的归属关系是否合理?要素名称与定义内涵的吻合程度是否合理?评估等级与各等级标准的相关程度是否合理?评估表的总体与评估期望达到的目标的一致性程度是否合理?各要素之间关系的协调性是否合理?然后,综合专家们对这些问题进行的选择回答,按公式计算出评估的内容效度:

CVR=(Ne-N/2)/N/2

式中:CVR——内容效度;

Ne——判断某项目具有代表性的人数;

N——参加判断的人数。

CVR的值在-1.00~+1.00之间,值越大效度越高。但是在实际工作中,由于内容效度判断的有关问题涉及范围较宽,常常很难用简单的“合理”或“不合理”进行判断,因此难以通过上述公式进行数量化分析,更多的是采用专家分析、集体推断的描述形式进行内容效度的检验。

2.统计结论效度

统计结论效度是有关决定实验处理效应的数据分析程序的效度检验。它并不涉及系统性偏向的来源问题,而是研究误差变异源和如何适当地运用统计显著性检验的问题。

研究的统计结论效度主要取决于两个方面的条件:一是数据的质量,数据分析程序的效度是以数据的质量为基础的;二是统计检验的假设,数据分析中所采用的各种统计方法都有其明确的统计检验假设,一项研究中统计检验假设不明,就会显著降低统计结论效度。

影响统计结论效度的因素主要有:统计功效(即统计检验力);违犯统计检验的假设;测量信度(测量信度低,导致测量的标准误差大);实验处理实施的可靠性;研究背景中随机的无关因素;被试的随机异质性。

3.效标效度

效标效度,就是考查测验分数与效标的关系,看测验对感兴趣的行为预测得如何。因为效标效度需要有实际证据,所以又叫“实证效度”。

所谓效标是指与被试群体无关的外部客观标准,是明显可见无所争议的。如任职资格标准,是统一规定的,不会因测评对象群体性质的改变而变化;又如在一般的百分制考试中,对任何人而言,60分就是通过,那么60分就是效标。

4.结构效度

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明某种理论的某种结构或特质的程度;是指实验与理论之间的一致性,即实验是否真正测量到假设(构造)的理论。(6)编制一个测验后,编制者需要确定其结构效度,其方法主要有以下几种。

(1)考察测验的内容效度。因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释,所以内容效度高实质上也说明结构效度高。

(2)计算测验的同质性信度。若有证据表明测验不同质,则可以断定该测验结构效度不高。

(3)利用相容效度法。考察新编制的测验与某个已知的能有效测量相同特质的测验之间的相关。若二者相关较高,则说明新测验有较高的效度。

(4)利用区分效度法。考察新编测验与某个已知的能有效测量不同的特质的旧测验间的相关。若二者相关较高,表明测到了其他心理特质,则新测验效度不高。

(5)对一组测验进行因素分析,找出影响测验的共同因素,每个测验在共同因素上的负荷量(即测验与各因素的相关)就是测验的因素效度,测验分数总变异中来自有关因素的比例就是该测验结构效度的指标。

(6)综合应用相容效度法和区分效度法。若用多种极不相同的方法测量同一种特质,相关很高;或用极为相似的方法测量不同特质,相关很低,则说明测量效度很高。若有多种特质都接受了多种方法的测量,就可以分别计算出任意两种方法测量同一种特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关。

使用者确定结构效度的方法主要有以下两种。

(1)分析被试答题的过程。若有证据表明某一题的作答除了反映所要测的特质外,还反映其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低结构效度。

(2)根据所要预测的效标的性质和种类来推断结构效度,有两种做法:其一,根据效标把被试分为两类,考察其得分的差异。若两组被试得分差异显著,则说明该测验有效,具有较高的结构效度。其二,根据测验得分把被试分成高分组和低分组,考察这两组被试在所测特质方面是否有差异。若两组被试在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。

结构效度的最大贡献是可以用来提出和验证假设。当然结构效度也有其明显的局限性,特别是当测验结果不能验证原来的构想时,我们不能确定是构想有错误,还是测验本身缺乏内容效度,或是实验设计有问题。这说明结构效度发展还未完全成熟。

5.理论型效度

理论型效度也称“结构效度”、“建构效度”或“构想效度”,是指测量工具反映概念和命题的内部结构的程度。它一般是通过测量结果与理论假设相比较来检验的。如果用某一测量工具对某一命题(概念)测量的结果与该命题变量之间在理论上的关系相一致,那么这一测量就具有构想效度。确定构想效度的基本步骤:首先从某一理论出发,提出关于特质的假设;然后设计和编制测量并进行施测;最后对测量的结果采用相关分析或因素分析等方法进行分析,验证与理论假设的相符程度。

6.描述型效度

哈佛大学教育学院教授马克斯韦尔在前人的基础上发展了自己“当事人”的分类法,认为与其借用定量研究或其他学科对效度的定义和分类法,不如从定性研究者自己从事研究的经验出发,介绍他们是如何在研究过程中思考、甄别和处理效度问题的。从研究者自己的角度来探讨效度问题比站在这之外评头论足更有可信度和说服力。因此,他在定性研究中提出两种效度:描述型效度和解释型效度。(7)

描述型效度,指对外在事物或现象进行考察后所作描述的准确程度。这一概念既适用于定性研究也适用于定量研究。衡量这一效度有两个条件:①所描述的事物或现象必须是具体的;②这些事物或现象必须是可见或可闻的。比如学校里的教室和操场,上课时老师对学生的提问。假设一位研究人员到学校观察课堂上老师与学生的互动关系,如果该教室临街,外面很嘈杂,该研究人员听不清楚老师和学生所说的话,那么他对师生互动关系的描述就有可能失真。(8)

在描述型效度方面犯错误的情况还包括在搜集和分析资料时有意无意地省略掉某些对研究课题至关重要的信息。比如,如果研究者在对学校食堂的伙食标准进行观察后只在报告中提到“学生伙食标准很高”,“饭菜价格很贵”,而不对饭菜的成本和价格进行具体的报道的话,则有可能造成资料的不真实。由于不同的人对“高”和“贵”这类判断性概念可能有不同的理解,仅仅用这些词语来描述饭菜的价格是不准确的,容易给读者造成不解或误解。

描述型效度还受到研究者和被研究者之间关系的影响。在进行非参与型观察时,被研究者可能因为研究者在场而表现得与平时不一样。在访谈时,被访者有可能自觉或不自觉地掩饰或回避一些问题。如果研究者是被研究者的上司,或者有可能被看作与上司有关系,被研究者有可能有意投其所好,报告一些不真实的情况。

7.解释型效度

解释型效度指研究者了解、理解和表达研究对象对事物所赋予的意义的确切程度。这一概念只适用于定性研究。满足这一效度的首要条件是:研究者必须站到被研究者的角度,从他们所说的话和所做的事情中推衍出他们看待世界及建构意义的方法(而不是像定量研究那样,从研究者预定的假设出发,通过研究来验证自己的假设)。(9)

由于定性研究强调再现研究对象自己的文化规范、思维趋向和行为方式,研究者在搜集原始资料的时候必须尽最大的努力理解当事人所使用的语言的含义,尽可能使用他们自己的词语作为分析原始材料的分类名,并力图在研究报告中真实地表现他们的意义体系。另外,在试图理解研究对象的真实想法时,我们还必须分清楚他们口头上所拥护倡导的理论和他们在实际行动中所遵循的理论。比如,某位教师可能认为体罚学生是不好的行为,如果有研究人员问他这个问题他也会这么回答。可是,他在实际处理学生问题的时候有可能使用过体罚这一手段,这时候他使用的是另一套解释原则。在这种情况下,研究者必须使用多种不同的研究方法(如访谈和观察相结合),调查各种不同的人(如该教师的学生、学生家长,以及学校里其他教师和管理人员),询问不同的情形(如他在什么情况下体罚过学生,体罚过什么样的学生,因为什么原因等),从而了解该老师所说的“体罚学生是不好的行为”到底是什么意思——是他认为应该遵循的一种价值观念,还是可以因具体情况的不同而不同。

二、教育实验效度的影响因素

(一)影响内在效度的因素

实验内部效度高低,取决于对无关变量控制的程度。无关变量控制得越好,越能说明实验结果是由实验处理所造成的。(10)那么有哪些无关变量会影响实验结果呢?

1.主试因素

1)期望效应

期望效应又称“皮格马利翁效应”、“罗森塔尔效应”、“自验寓言”、“毕马龙效应”。此效应说明主试的期待不同,对被试施加影响的方法也不同;被试受到的影响不同,从而表现也有差别。由此可见,期待是一种强有力的力量。

2)晕轮效应和马太效应

晕轮效应,又称“光环效应”,属于心理学范畴。晕轮效应指人们对他人的认知判断首先是根据个人的好恶得出的,然后再从这个判断推论出认知对象的其他品质的现象。

马太效应是指好的越好,坏的越坏,多的越多,少的越少的一种现象。

3)投射效应

投射效应,是指认知者形成对别人的印象时总是假设他人与自己有相同的倾向,即把自己的特性投射到其他人身上。所谓“以小人之心,度君子之腹”。

4)刻板效应

刻板效应,又称“定型效应”,是指人们用“印刻”在自己头脑中的关于某人、某一类人的固定印象,作为判断和评价依据的心理现象。

5)首因效应和近因效应

首因效应是指最初接触到的信息所形成的印象对我们以后的行为活动和评价的影响,实际上指的就是第一印象的影响,即人们根据最初获得的信息所形成的印象不易改变,甚至会左右对后来获得的新信息的解释。

近因效应是指当人们识记一系列事物时对末尾部分项目的记忆效果优于中间部分项目的现象。近因效应与首因效应相反,是指交往中最后一次见面给人留下的印象,这个印象在对方的脑海中也会存留很长时间。

6)观察者偏见

观察者偏见是指由于观察者个人的动机和预期导致观察的错误。刻板效应、投射效应及光环效应都属于观察者偏见,可见其范围很广,因为人们总是“看见”他们想看见的。

2.被试因素

被试因素主要表现在要求特征上,另外还有一些其他的因素。

要求特征是指被试通过对主试的语言行为和态度的察觉,判断主试的实验目的从而自觉不自觉得改变自己的反应。对被试传递的实验信息和线索成了决定被试行为的显著因素,这样的线索就是实验情境中的要求特征。常见的要求特征包括霍桑效应、评价忧虑、取悦研究者、罗密欧与朱丽叶效应、安慰剂效应、亨利效应等。

1)霍桑效应

霍桑效应,是指被试面临新情境时发现自己比较特别并正在被关注,行为上就会表现出高度的积极性。

2)评价忧虑、取悦研究者、罗密欧与朱丽叶现象

评价忧虑是指意识到自己正在被人观察和评价,被试担心自己的行为不能被别人认可而产生的忧虑的心理,从而导致行为异常。

取悦研究者是指在评价忧虑的基础上,为了得到较好的评价而按照假想的主试的愿望去表现自己的行为,而不是如平常一样。

罗密欧与朱丽叶现象是指在探测到主试愿望后产生逆反心理,故意改变自己的行为使主试的愿望破灭。

3)安慰剂效应

安慰剂效应是指被试认为某种无效刺激具有某种功能,从而有意无意中按照这种功能的结果来行为,或者是表现出刺激有效的反应。安慰剂效应相当于发生在被试身上的期望效应,都是人强烈意念的能动性的表现,是一种自我暗示。

4)亨利效应

亨利效应是指被试接受虚假的信息或其他刺激产生了盲目的自信或积极的态度,从而在反应上表现出异乎平常的正面效果。亨利效应同样相当于被试身上的期望效应。

例如,在操作设计中,由于实验组被给予实验处理,被试会较多产生安慰剂效应,而主试产生皮格马利翁效应;而控制组被试由于未被重视,容易产生罗密欧与朱丽叶效应,或被激发斗志而出现亨利效应。

3.历史

历史(亦称“经历”)指在实验过程中,与实验变量同时发生,并对实验结果产生影响的特定时间。尤其是在周期较长的实验中,它更可能成为一个问题。当出现这种情况时,研究者无法判断实验结果是由自变量引起还是由特定时间引起。

4.成熟或自然发展

成熟是指在实验过程中随着时间的延续,被试身心发生变化,如变得较为成熟、疲倦、饥渴或对实验丧失兴趣等,这些改变都会影响实验结果。

5.差异性选择

实验过程中由于没有采用随机化的方法来选择被试和分配被试,造成实验处理前被试的组与组之间在很多方面有差异性。如果组别之间受试者的特质不一样,就无法确定实验效果的差异是单纯由于进行实验所造成的,还是组别之间所存在的差异造成的。

6.测验

研究者为了取得实验前被试的初始状态,对被试实施前测,而这种测验可能会或积极或消极地影响实验处理实施后进行的测验。因为,受试者在经过前测之后,会熟悉测验的技巧和内容,这样会对后测产生干扰。

7.被试的亡失

实验过程中由于种种原因使较多被试中途退出或死亡,导致研究者因为样本太小或组间被试不均衡无法对结果作出正确的解释。这样,即使两组都是经由随机抽样和分配而来的,但是由于不同比例的被试从实验中退出,所剩样本可能有异于原来无偏差的样本。

8.统计回归

统计回归,也叫“向平均回归”,经常在有匹配过程的实验中出现,由于在实验处理前选择了某一特征方面具有极端分数的被试,实验处理后的后测验分数有回归到平均数的趋向,因为大多极端分数都含有较大的偶然因素。如果统计回归导致实验结果上的错觉,则称之为“回归假象”。

(二)影响外在效度的因素

坎贝尔和斯坦利提出了影响实验外部效度的四个因素。(11)

1.测验的反作用或交互作用效果

测验的反作用指前测对后测的作用。测验的交互作用,指前测与后测的交互作用。有前测经验容易造成后测成绩好。在有前测和后测的实验设计中,前测的经验往往会限制研究结果的推论性,因为前测提高了被试对后测的敏感性。

2.选择偏差与实验变量的交互作用效果

选择偏差具体表现为取样偏差,被试取样有没有代表性是至关重要的。当研究者选取一些具有独特心理特质的受试者做实验时,选择偏差与实验变量的交互作用效果就容易产生。因为这些独特的心理品质,有利于对实验处理造成较佳的反应。

3.实验安排的反作用效果

实验安排的反作用效果即著名的霍桑效应。由于实验情境的安排,被试知道自己正在被观察或正在参加实验,他所表现出来的行为,自然而然地与他不知道正在被观察或与他不参加实验时有很大的不同。这时,他们往往为投实验者之所好,可能改变正常的行为方式,努力表现实验者所期望的行为,比平时有更高的兴趣和动机,结果使实验效果产生很大的改变。

4.多重实验处理的干扰

当同样的被试重复接受两种或多种实验处理时,由于前面的处理带来的影响通常不易完全消失,以致几项实验处理间会相互产生干扰作用,产生练习效应或疲劳效应。因此,这种实验的结果,只能推论到类似这种重复实验处理的情况。

三、教育实验效度的检测

(一)对研究内容进行逻辑分析

对研究内容进行逻辑分析主要是指对实验设计和测量工具本身的具体内容进行系统性的查验,以确定这些内容是不是要研究的内容和所要测量的目标特质。主要方法是确定一批有经验的该领域的专家,在深入培训的基础上,要求他们按照已确定的标准和范围,对实验设计的步骤和测量指标、测量工具进行深入分析,来确定教育实验的效度。要注意防止受到表面效度的干扰,因为它反映的不是实际要测量的目标是什么,或对目标测量的程度如何,而是从表面上看测量了什么。

(二)考察选择研究对象和研究材料时所用的抽样技术

抽样效度是指所抽取的实验样本对实验目标总体的代表程度。在实验研究中,研究者对研究对象的选择会考虑他们的语言学习经历、语言水平和学习动机等。一开始两个组的受试者就必须保证在同一水平线上,以保证实验的效度。对实验材料的选择,也需要考虑其抽样效度,如果抽取的实验材料是有偏的(比如被试之间相互特别熟悉的或相互特别陌生的),都会对最后的实验结果造成干扰。因此,可以考察研究者所采用的抽样技术来检测实验效度。抽样时要注意:第一,被试是否具有普遍的代表性;第二,实验是否要求特殊的条件;第三,实验者是否需要具备特殊的知识和技能。一个教育实验的实施要有理论方面的指导和程序上的操作,一般需要实验者接受与实验有关的专门训练。

(三)考察研究人员的素养

对于实验研究来说,被试的选取具有重要价值,而主试或研究人员的选取同样具有重要意义。由于存在个体差异,不同研究人员的水平和素养同样存在很大的差异,对最后实验结论的效度也会造成很大的影响。比如在主持实验时,主试的投入程度不同,被试的投入程度也会相应存在差异。另外,不同的研究人员在对被试的反应作出评价时,也会存在差异,而且很容易受到个体偏见的影响。因此,要深入考察研究人员的素养,检查是否符合实验的要求,以保证实验结论的效度。

(四)考察研究过程中的控制手段

要控制好实验的过程,使在运用实验手段时没有任何其他因素可以使被实验者的状态改变。在进行实际操作时,应尽量使实验的环境处于稳定,除所使用的实验手段外,其他条件都应保持不变。

(五)比较实验研究前测和后测的结果

检验实验手段有效性的常用方法是前后对比测试法。研究者需要分别测量被实验者在实验前的状态(如能力水平)和在实验后的状态,然后根据测量出来的状态差异来确定实验手段的有效性。使用这种对比法的关键是要控制好实验的过程,使运用实验手段时没有任何其他因素可以使被实验者的状态改变。如果实验控制得不好,有干扰因素参与,即使可以测得被实验者的前后状态变化,但究竟实验手段是否起了作用或是起了多大作用,实验者都难以作出判断。

(六)比较实验研究中实验组和控制组的表现

将实验组与控制组相比较,通过检验两个组别实验前后的状态变化来确定实验手段的效果。采取这种方法有两个重要的条件:一是实验组与控制组要通过随机抽样来建立,以保证两组确有等同性,二是两个组除了接受与没接受实验手段的区别外,没有其他方面的不同,以保证其可比性。只有在这两个条件都满足的情况下,才能将两个组的结果进行比较。但是,在许多教学实验中,这两个关于实验研究的基本要求被忽视了。实验者往往倾向于把具有“优势”的学生放在实验组里,当实验结束后做结果检验时,如果发现实验组比控制组的变化明显,便得出“实验方法有效”的结论。其实,这样得出来的结论并没有充分的根据。实验组在实验前就比控制组有“优势”,而他们先前就具有的“优势”很可能会在实验的测量中表现出来,使其测量结果比控制组的好。如果这种可能性真实存在的话,就不能将实验组的结果完全归于实验手段的使用,因为实验手段是否产生了效果或产生了多大效果并没有被验证出来。

(七)比较不同来源获取的信息

不同来源的丰富的资料可以为研究的结论提供充分的论证依据,进而提高结论的效度。在实验中,如果研究者搜集的资料有限,获取信息的渠道和来源单一,容易受到单一偏差的影响,那么这些信息的可信度是值得怀疑的,而实验结论的推广也会受到限制。因此,在检测实验的效度时,要尽可能多渠道地获取信息,对目前已经建立的结论进行检验,以求得最大真实性。

(八)比较不同的假设

实验假设主要有三大假设:目标假设、理论假设和前提假设。目标假设是最重要的假设,目标假设应该多元化,比如考查学生某一学科的成绩,不仅要考察总成绩,还要考察分项成绩(阅读理解、写作、运用等)和不同学业程度学生成绩(优生、中等生、差生)。通常,中小学教师所做的教育实验,目标假设过于单一、单调(只注重学习成绩),严重影响研究结果的分析。理论假设是实验的依据,研究者在提出理论假设时,要综合考虑当前各种流派对某一现象的解释,作出充分的理论假设,否则其实验理论就会过于片面和极端。前提假设,主要是确保实验结果的可靠和有说服力,为了保证实验分析的效度,必须对实验的前提加以说明,查阅相关文献,结合文献综述,作出科学的假设。假设是实验的起点,研究者要将不同的假设综合起来考察,来检验教育实验的效度。

(九)计算不同测量工具所测结果之间的相关系数

在实验研究中,研究者采用的测量工具不同,则其评价的标准就会不同,因而对最后的实验结果也会有一定的影响。因此可以采用相关检验法来检测教育实验的内部效度,即采用多种测量工具来针对某一变量进行测量,然后计算不同测量所得的实验效度。如果不同工具对同一变量的测量结果之间相关较高,说明这些工具效度都高;如果不同工具对同一变量的测量结果相关较低,说明这些工具中有些工具的效度较低。

(十)核对统计方法采用的前提假设和使用条件

各种统计学的分析与计算方法都有其特定的假设和使用条件,只有满足了所要求的假设和条件,才能用来进行数据分析,所得到的结论才有意义。例如,在做方差分析时,要求每个组所测得的因变量必须是正态分布的。又如,使用回归方法的要求是每个变量至少要有5个被试,如果回归方程中有5个自变量,就需要有75个人参加实际的测量,才能保证结论的统计有效性。否则,统计分析所得的实验结果的准确性是值得怀疑的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈