程序及结果分析

时间：2023-03-03 理论教育版权反馈

【摘要】：本节则主要介绍评价研究的基本模式、程序以及如何对评价研究的资料进行分析与解释。管理定向评价模式旨在为心理与教育决策者提供服务。它强调要尽量明确用户的需求及对产品的意见，要维护广大客户的利益，为他们选择物美价廉的教育产品提供终结性评价信息，同时也要间接为开发者改进产品提供形成性评价信息。

上节中，我们讨论了评价研究的界定、特点与类型。本节则主要介绍评价研究的基本模式、程序以及如何对评价研究的资料进行分析与解释。

一、评价研究的基本模式

目前，在评价研究领域中存在着为数众多的评价模式，下面我们介绍其中比较重要的三种模式。

（一）目标定向评价模式

目标定向评价模式（objectives-oriented evaluation model）是评价领域中最早的研究模式。该模式强调评价者应详细设定某一心理与教育活动的特定目标，注重检测目标实现的效果和水平，主张评价信息有助于重构活动目标。该评价模式兴起于20世纪30年代，泰勒Tyler，1935）做出了开创性贡献。20世纪60年代末，在泰勒理论的基础上又衍生出几种新的模式。其中哈蒙德提出的模式最为著名（Hammond，1973），他提出了一个三维评价结构（three-dimension evaluation model）（见图8-1）。

pagenumber_ebook=259,pagenumber_book=259

图8-1　三维评价结构

（采自　Hammond，1973）

从图8-1中可看出，教学这一评价对象包括了教学活动、教学活动中的团体或个体、教学活动目标三个基本维度，其中，教学活动作为评价对象包括如下五个方面：（1）组织：即日程安排、课程顺序及学校各级单位等；（2）内容：即教学活动内容；（3）条件：即教室、设施和器材等；（4）方法：包括教学活动、互动类型（如师生互动、媒体学生互动等）及教学理论等；（5）成本：即购买、维护设施的费用及员工薪水等。

对教学活动中团体（或个体）的评价有如下几个方面：（1）学生特点：年龄、年级、性别、家庭背景、社会阶层、身心健康、成就、能力和兴趣等等；（2）教师、管理者与教育专家特点：年龄、性别、种族、健康、人格、教育背景及工作经历等等；（3）家庭特点：家庭语言或文化、家庭类型与气氛、婚姻状况、收入及教育水平等等；（4）社区特点：地理背景、历史、人口统计学资料、经济、社会和政治特征等等。

对教学活动中的目标评价包括：（1）认知目标：即知识和智力、技能等；（2）情感目标：即兴趣、态度以及情感等；（3）心理动力目标：即身体技能、身心协调等。

在图8-1中，每个单元都代表着一个评价问题类型，而每个评价问题类型又可衍生出若干个不同的具体问题。譬如，评价者可以考察一个由内容（教学活动维度）、教师（团体维度）和情感（目标维度）组合而成的单元，即一个评价问题类型。该问题类型又可具体表述为：若教师以此内容进行教学，实现情感目标的程度如何？教师如何看待此方案所提出的教学内容和情感目标？方案中的教学内容是否足以促使教师实现情感目标？

该模型是一个颇具启发价值的评价工具，有助于评价者具体分析教学活动在实现其目标中的成败原因。同时，该模型还提出了如下评价步骤：（1）界定方案；（2）给变量下定义；（3）陈述目标；（4）评价行为；（5）分析结果；（6）结果与目标之比较。

总体来说，以三维评价结构为代表的目标定向评价模式的优点表现为：模型通俗易懂，便于操作；能为教育者实现目标提供充分的评价信息；可促进评价技术及有关工具的发展等。其缺点为：缺乏判断目标与行为之间差异性的统一标准，较易忽略评价背景等。

（二）管理定向评价模式

管理定向评价模式旨在为心理与教育决策者提供服务。该模式强调，首先要明确决策者或管理者的需要，并满足其需要：其次，准确、可靠的评价信息是形成良好决策的必要前提之一；最后，该模式主张对决策形成过程进行系统性评价。

斯达夫比姆（Stufflebeam，1971）和阿尔金（Alkin，1969）在20世纪60年代中期提出了管理定向评价模式（management-oriented evaluation model）。他们认为，决策是一个包括情景（context）、输入（input）、过程（process）和结果（product）的系统过程，因此提出了一个著名的四维评价模式，即CIPP模式（CIPP model）。该模式根据决策过程的逐步发展，提出了如下四种不同的评价活动。

1.情景评价　旨在帮助决策者规划方案蓝图，主要任务是为其提供有关社会需要方面的信息，以利于决策者界定方案目标。

2.输入评价　旨在为决策者的方案实施提供服务。评价者需提供如下信息：方案实施的进展如何；哪些因素阻碍了方案的成功；哪些方面需要改进等等。上述信息有助于决策者方案的监控和调整。

3.过程评价　旨在鉴别或预测方案设计和实施过程中的不足，并对实施程序上的事件和活动作出记录与评判，为方案的决策提供信息。

4.结果评价　旨在提供方案的终结性评价信息，并为下一轮方案提供形成性评价信息。评价者提供的信息包括：方案实施的最终结果；在多大程度上满足了应用者的需要；方案完成之后还需做哪些工作。

上述模式是一个基于决策过程的评价模式。但在决策的每一阶段，评价者应遵循下面的步骤：（1）明确焦点问题：它包括辨明决策服务对象的主要层次（如地方、省或国家）、确立衡量每一决策的标准、阐明评价者需遵守的原则等；（2）资料收集：它包括确定资料来源及收集资料的工具和方法、制定取样程序及资料收集的日程表；（3）加工资料：它包括系统地整理资料与确定分析手段；（4）结果报告：它包括明确评价报告的阅读对象、确定呈现结果的手段与评价报告的格式；（5）评价管理：它包括总结评价进度表、确立满足员工合理要求的计划、规划整个评价过程的经费开支。

管理定向评价模式的优点是：有助于拓展教育决策者发现问题的思路，并为之提供及时有效的评价信息；强调决策者适时反馈信息。其不足之处在于：评价有时很难对某些重要问题作出有效反应；或可能因程序监控不当而导致时间或经费的浪费。

（三）客户定向评价模式

客户定向评价模式（consumer-oriented evaluation model）是一种指向教育客户利益和需要的评价模式。它的产生有以下两方面原因：一方面，现代教育产品（如教育软件、媒体、教程及程序等）的迅猛发展及其社会效益促进了客户定向评价模式的产生；另一方面，面对形形色色的教育产品，广大教育者和学生往往感到困惑而不知作何选择。

总体而言，客户定向评价模式具有指向应用和服务实际的鲜明功能。它强调要尽量明确用户的需求及对产品的意见，要维护广大客户的利益，为他们选择物美价廉的教育产品提供终结性评价信息，同时也要间接为开发者改进产品提供形成性评价信息。产品检核表及评价报告是该模式的重要载体。

美国早在20世纪60年代便成立了一个独立的服务机构——教育产品信息交流部。该部定期发表产品简报和评价报告，为广大教育客户使用产品提供参考依据。此间墨里塞和斯蒂文开发出了有影响的《课程材料分析系统》（Morrisett & Stevens，1967），它包括如下几个方面：

1.描述产品特征　媒体、材料、产品制作时间、风格、成本、功效及课程特征。

2.分析产品目标　分析产品的一般目标、特定目标和行为目标。

3.关注对象特点学生、教师特征及其要求，学校和社区特征，现有课程及课程组织。

4.分析产品内容　认知结构训练、所教技能及情感内容。

5.考虑产品理论成分　产品使用时应结合的教学理论和教学策略。

6.形成总体结论　综合考虑有关定性研究资料、评价报告、客户意见及外行的评价等。

客户定向评价模式的优点是：为广大教育客户提供了了解产品价值的评价信息及产品选择的参考依据，具有捍卫客户权益的功能；对教育产品厂家起到了间接监督的作用，有助于开发者改进产品。其不足之处是：评价功能会给产品带来某种风险，在某种程度上限制了开发者的积极性和创造性。

二、评价研究的基本程序

同其他研究类型和方法一样，评价研究也包括从确立研究目的到收集资料，再到撰写评价报告等一系列复杂有序的研究活动。

（一）确立评价研究目的和服务对象

开展一项评价研究，首先要明确评价目的，即研究者通过评价应该回答或解决的实际问题。评价目的的确立，直接影响被试的选取、变量的选择及资料收集方法等。如“中学生元认知能力培养方案的评价研究”与“矫治大学生考试焦虑方案的评价研究”，两者由于各自研究目的不同，其被试变量与指标的选择等也就不同。评价者应该用可操作的语言尽量详细、准确、清晰地表述实际问题。

确立评价研究的问题，一般要经过如下两个阶段：

1.广泛收集阶段　即广开问题渠道，全方位收集资料，不因好恶或偏见而取舍问题，问题来源大致有如下几个方面：（1）方案或产品的出资人（包括客户、发起人、参与者、赞助者等）关心的问题；（2）心理与教育研究及其评价文献中所提出的问题；（3）专家、顾问的观点和问题；（4）评价者的思考与判断。评价者往往从上述问题来源获取若干亟待研究的问题，如该方案是否达到基金会预期的目标，目标变量发生变化的证据是否充足等等。

2.汇总和精选阶段　问题的精选既取决于实际需要，又取决于评价者敏锐的洞察力和概括力。一般应注重从如下角度进行考虑：（1）这是否是用户所关心和感兴趣的问题；（2）该问题能否提供有价值的信息；（3）人们对该问题的兴趣是持久的还是暂时的；（4）该问题是否影响了该方案（产品）的应用过程；（5）从经济、时间、人力资源及已有技术和方法来看，该问题能否得到解决。

此外，研究者还需要明确评价研究的服务对象，即评价报告的读者或使用评价结果的用户。这是评价研究初期务必解决的又一重要问题。评价研究的服务对象不同，其评价问题也随之不同。一项评价研究，要先考虑回答主要用户所提出的问题。一般来说，评价方案或产品的资助者和客户通常是评价研究的主要服务对象。此外，其他可能的用户还有：各类基金会；各省、市、区、县的教育主管部门与研究机构；各种专业委员会；教师、学生、学生家长等等。

（二）确定评价研究的关键变量及观测指标

在确定了评价研究的目的之后，就应据此目的来确定关键变量。根据研究的需要，关键变量（key variable）可分为因变量、自变量及背景变量等，同时要对上述变量下操作定义，以便确立科学可行的观测指标。这些指标既可以是主观的（如满意度等），也可以是客观的（如就业人数、学习成绩等）；既可以是定性的，也可以是定量的。

因变量即评价者在研究中主要测查的效果或目标变量。具体来说，当某种心理、教育方案（产品）付诸评价后，其资助者或方案主创人员总是期望其达到某种效果，这一效果是评价研究应加以测查的因变量。譬如，梅耶和伯迦特（Meyer & Borgatta，1959）对某项精神病治疗方案的效果进行评价研究时，设计了一套测量方案疗效的具体指标，包括：病人实现经济独立、面对现实、重建社会关系网络、不需继续治疗等。

自变量即方案，如为了评价一项“提高学生思维品质”的方案，将学生分为实验组和控制组，是否参与实验便是评价中的自变量；再如，评价某一教育软件的效果，不同的使用方案便是自变量。

背景变量（contextual variable）即方案或产品使用过程中潜含于评价背景中的某些变量。例如，我们要评价一项培训失业人员使之再就业的教育方案。因变量应当是培训之后的再就业率。但是在测量受训人员再就业率的同时，还有一个关键变量，即整个社会失业人员的再就业率。如果近期国家实施了多项鼓励失业人员再就业的政策，使整个社会的再就业率得到了大幅度提高，即便受训人员的再就业率有了很大提高，也很难确定培训方案的价值大小。也就是说，国家的就业优惠政策充当了该研究的背景变量，混淆了培训方案产生的效果。可见，重视和测量背景变量也是至关重要的。

（三）选择研究设计

本书第七章所探讨的真实验设计和准实验设计的方法大部分都适用于评价研究。

在各种真实验设计方法中，最常用于评价研究的是被试间设计。所谓被试间设计（between-subjects design）是指每个被试只接受一种自变量水平的实验处理，即不同的被试接受不同的自变量水平的实验处理。例如，我们要对一套矫正大学生社交焦虑的方案进行评价，首先需要定出测量社交焦虑的指标，选出适于参加矫正的大学生群体。最简单的设计是把该群体随机分为实验组和控制组。对实验组被试实施矫正方案，对控制组被试则不作任何干预。实验中应当注意避免实验组对控制组的“污染”。假如矫正方案是通过团体形式来实施，则需对实验条件作更具体的规定，如团体的规模有多大，每次活动多长时间，咨询后是否布置行为矫正作业，被试在咨询中的表现如何等。应当把现场信息全部记录下来，如条件许可，最好采用录像的方法。矫正实验结束之后，再测量两个组的社交焦虑程度，检验差异是否显著。

评价研究是在复杂多变的实际生活中展开的，所以真实验设计往往很难实现。在这种情况下，可运用准实验设计。例如，研究者欲对某种新的外语教学法进行评价。在实际中，我们几乎不可能随机抽取和分配被试，只能利用现成的自然班。评价者可以在同一年级，选取两个在外语水平、智商、民族、性别上对等的班级，随机确定实验班和控制班，学期结束时可比较两个班的期末外语成绩。这是一种不相等控制组前后测设计。

此外，时间序列设计也是一种常用的准实验设计方法。例如，我国某大城市为了限制机动车闯红灯，采取了在主要交通路口设置摄像机的办法来取缔并重罚违规者。评价者收集了此方案实施前后一段时间此类交通违规的报告，发现方案实施后违规事件确实有所下降。由于此类事件发生率在这段时间内波动幅度较大，还不能断定是该方案减少了此类违规事件。于是，研究者又比较了邻近四个省会城市的时间序列统计资料，这四个城市均未实行这种方案。比较结果表明，这四个城市并未出现此类违规事件下降的趋势。这一比较使人更加确信，该方案的确有助于减少此类交通违规现象。

（四）收集研究资料

研究资料的收集是评价研究的重要步骤之一。一般来说，需要考虑的问题包括抽样、收集方法及收集时间。

评价研究同样离不开科学的抽样，不能因为评价研究的对象及其结果具有特殊性而忽略了抽样的重要性。当然，如果被试量不大，并且条件许可的话，可以对所有的相关群体进行研究。另外，是否需要抽样及样本含量的大小也与收集数据的方法密切相关。例如，对于100人左右的被试群体，若采用问卷法，只要条件许可，则无需抽样，可对所有的被试进行测查。但若采用访谈法，则一般需要先抽样再访谈。

评价研究对收集资料的方法并没有特别的限制和要求。虽然在研究设计阶段已初步确定了资料的收集方法，但是在实际操作前再次审核和思考仍是很必要的。主要应考虑如下一些问题：欲收集的资料能否反映评价对象的整体特征；资料收集程序是否合乎伦理和法律；将所得资料与收集时的花费相比，采用这种方法是否值得；采用这种收集方法是否能及时获取资料，而且不致影响整个研究的过程；所得资料可靠性如何等。

与一般研究相比，评价研究对资料收集的时间要求较高。例如，如果形成性评价的资料在方案完成之后才收集到，则这些资料只能作为终结性评价的参考资料。因此，“及时性”是对评价研究资料收集的基本要求。此外，研究者还应考虑如下几个问题：何时需要资料；何时可以收集到所需资料；何时收集最方便。总之，收集资料必须根据实际情况作出周密而合理的安排。

（五）研究结果的分析、解释及报告

资料收集完毕之后，下一步的任务就是分析、解释结果以及撰写评价报告了。资料分析应采用定性和定量相结合的方法，对不同资料应根据研究目的和资料特点选择相应的分析方法。对于同一分析结果，由于评价者的价值观、个人的期望和经验的不同，可能作出不尽相同甚至完全相反的解释。因此，如果条件许可，应邀请评价研究的主要用户和有关人员，一起商讨结果的解释。解释时，应注意从多种角度考察不同的或相反的解释，避免草率下结论。另外，在作评价解释时既要说明解释的结果，更要说明解释所依据的标准。因为解释其实就是作出价值判断，它是整个评价研究的核心，所以一定要谨慎对待。

评价研究的最后一步工作就是写出评价报告。在计划呈现一份评价报告时，一般要考虑的因素有：报告的听众或读者；报告应回答的问题；报告的场合与形式等。对某些研究问题，可能需要定期报告，有些则只需一次性报告即可。在某些场合中，需要技术性较强的正式论文，有些场合则可能需要非正式的备忘录、口头报告或会议报告等。

三、评价研究资料的分析与解释

在评价研究过程中，通过各种方式收集到的资料，需要评价者进行科学系统的分析和富有意义的解释。资料分析的目的在于浓缩和整合信息，挖掘出资料背后的意义，而解释的目的则在于把分析结果与价值标准相对照，以便得出结论，作出判断或提供建议。

（一）资料分析与解释前的注意事项

一般而言，在资料收集的同时甚至之前，评价者便应考虑分析与解释的方法，此时，评价者应注意考虑如下问题：首先，从评价研究的目的与资料收集的方法出发，慎重选取资料分析与解释的方法；其次，应注意从读者的角度来考虑，分析与解释方法的可信度如何，是否易于理解；再次，对定量资料而言，适宜使用何种量表来对观察结果进行量化处理，哪些分析方法适合此类量表，对定性资料而言，应如何记录观察结果。

（二）资料分析的方法

评价研究的资料包括定性与定量两类。两类资料的区别在于：前者一般运用描述性的自然语言来记录观察结果；而后者则用数字来记录。下面我们简要介绍一下两类资料的分析方法。

1.定性资料的分析方法　资料的性质和分析者的理论框架是进行定性资料分析的必要前提。定性资料的分析方法既包括定性描述，又包括对叙述成分的定量分析。从分析的时间维度看，可将定性资料分析划分为现场分析和事后分析。

现场分析（field analysis）指分析者在现场观察中，一边收集资料，一边分析的过程。分析者对已有的资料进行反思和加工，随时写下灵感和见解，同时考虑下一步的观察目标。在资料分析的连续过程中，评价者收集到了大量有效的证据或事实，从而得出结论。具体而言，现场分析包括如下步骤：（1）形成印象，并记入现场笔记；（2）确定主题，用精短易懂的语句记入备忘录；（3）提出假设，把现场观察中形成的动态假设作为进一步观察的焦点问题，对得到支持性证据的假设需进一步研究，对没有得到支持的假设则需做出标记，同时在旁边列出反驳性证据；（4）验证假设，对已经获得初步支持证据的假设，需要通过评价研究的被试来检验其真伪，若得到证实，则可将假设变为初步的结论；（5）推广结论，根据评价对象的特点，将分析的结论放在更广阔的背景上进行描述。

与现场分析相比，事后分析（ex post analysis）指分析者离开观察现场后，对收集到的大量观察资料进行的系统分析。此时应遵循如下步骤：（1）确认资料是否全面、可靠；（2）归整资料并做分类编码；（3）探寻原因、关系与结果；（4）从以下角度审核分析结论的有效性，如考虑矛盾性结果的解释、研究设计是否有漏洞、有无评价者效应等。

2.定量资料的分析方法评价研究中定量资料的分析方法与一般研究的定量分析法没有实质区别，本书有关章节（见第六章第三节）已作过论述，在此不再赘述。

（三）分析结果的解释

结果的解释是评价者运用价值判断和概括力，旨在形成有充分依据的结论。具体而言，结果的解释包括两种成分：其一是评价标准，即资助单位的期待标准或以往计划所达到的标准；其二是判断结果，即评价者将产品或方案的效果与评价标准对照之后所得出的评判结论。

评价者近年来正在努力开发系统的解释方法。下列一些解释要点是在评价实践中应当重视的：（1）确定评价目标是否达到；（2）确定该方案或产品是否违反法律或道德原则；（3）确定方案或产品效果的价值及其对社会需求的满足度；（4）请其他评审小组检查资料分析，提出其判断结果；（5）将自己的结果解释与其他团体的结论进行比较，妥善处理矛盾性证据，并不强求一致；（6）将关键变量上所得的实际结果与预期水平作比较；（7）依照评价程序来解释结果；（8）掌握统计显著性与实际显著性的差异之处。

评价者在解释分析结果时可能会犯各种各样的错误。其中最常犯的错误之一就是根据相关资料得出因果结论。例如，一项研究结果显示：教室中教学辅助设备的数量与学生的学习成绩呈负相关。有的评价者从这一结果中得出结论：教学辅助设备是毫无价值的。这些评价者忽略了一个重要的背景变量，即教学辅助设备可能安放在成绩较差的班级里，学生成绩越差，学校为他们提供的辅助设备也越多。另一个常犯的错误就是将统计上的显著性与现实意义相混淆。例如，研究结果发现，从统计显著性上看，某教育方案显著地提高了学生的考试成绩。若因此得出“方案是成功的、有价值的”的结论则失之草率，虽然统计上的显著差异是千真万确的事实，但方案是否成功，是否有推广价值，则涉及成本效益等诸多复杂的现实因素。究竟提高多少分才能称方案为“成功”不是仅仅由统计显著性就能决定的。可见，评价研究结果的解释需考虑多方面的因素，评价者在作解释时一定要谨慎。

目前，大多数评价者已认识到：孤立地解释和概括结果会缺乏创见和新意，甚至会产生谬误，因此，结果的解释应是多渠道、全方位的。一个切实可行的多侧面解释结果的方法是举行投资者与评价者联席讨论会，就评价中的资料收集程序、方法及结论等展开广泛而深入的交流。另外，还可请其他团体从各自角度提出评价报告，以汇总解释意见，或举行评审会来检验评价结论的依据。

四、评价研究应用的有关问题

评价研究者针对各类用户所关心的实际问题，从设计、收集资料、结果的分析与解释，到最终写出评价报告，付出了大量艰辛的劳动，目的就在于能对用户的问题作出科学、负责的回答。但评价结果有时却可能不为大众所接受。一般而言，评价研究结果难以被人接受，其价值得不到认可的原因大体有以下三个方面：其一是评价研究结果的呈现方式不当，语言表述过于晦涩，理论色彩太浓，一般人难以接受和理解。其二是研究结论与大众普遍认可的观点相抵触。比方说，20世纪70年代，美国政府曾设立了一个特别全国委员会专门研究淫秽物品的社会影响问题。委员会的有关专家经过多方调查、深入分析，最后得出了该评价研究的结论：淫秽物品并没有造成那些常常归咎于它的反面社会后果。这一戏剧性的结论立刻遭到许多人的怀疑，就连总统也认为是委员会的研究出了差错。其三是研究结论可能会触犯某些人或某个集团的利益。例如，对某方案的评价研究结果显示，该方案并不能达到预想的效益。由于这一结论严重地影响了方案开发者的声誉和经济利益，因此可能遭到其研制者的强烈反对。因此，作为一名富有社会责任感并且尊重科学事实的评价者，除了应具备扎实的研究功底外，还必须有足够的勇气去面对可能遭到的误解或诽谤，并承担一定的社会风险。

此外，在评价研究过程中也可能随时遇到一些意想不到的问题。首先，这些问题可能来自评价活动本身。当被试得知自己在被人评价，尤其是被一个完全陌生的人评价时，可能会产生不安全感。因此，评价者对被试的情绪变化必须格外敏感，同时应充分考虑这一因素对评价结果可能产生的影响，并与被试多方沟通，尽可能缓解或消除他们的紧张和焦虑情绪。无论出现什么意外情况，评价者都应保持镇静。其次，评价研究的问题可能来自评价结果产生的功利效应。评价结果常常与某些人的利益密切相关。每个人都希望自己的方案能胜过对手的方案。譬如，有的管理者希望评价结果能支持他们的某项决策，如解雇某个员工或产品革新等。因此，评价者要尽一切努力，从多渠道收集信息，以便获取大量真实而可靠的资料。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈