普通话水平测试的信度与效度

时间：2022-03-29 理论教育版权反馈

【摘要】：一　普通话水平测试的信度与效度（一）信度信度是指对测试事先所作的判断与测试结果之间的一致性，也叫可信度。按照普通话水平测试等级标准的描述，应试人经过测试后获得的分数应与等级描述的一致，否则整项测试就缺乏信度。测试的过程中受到的干扰少，测试的信度就会高。所以测试员素质是保证普通话水平测试信度的重要条件，实施测试员的业务分项培训显得尤为

一　普通话水平测试的信度与效度

（一）信度

信度是指对测试事先所作的判断与测试结果之间的一致性，也叫可信度。在测试中有四种可以确定信度的办法：建立平行的测试形式；用反复测试的方法；分开测试的方法；观察内部一致性的方法。我们一般是从大纲、试卷、评分标准、测试员等方面来评价普通话水平测试信度。

普通话水平测试的信度体现在两个方面：一是不同的试卷能否测出相同的结果，如果可能，试卷的信度就是比较高的，这涉及标准试题库的建设问题；二是测试获得的成绩是否能对应相关的等级。按照普通话水平测试等级标准的描述，应试人经过测试后获得的分数应与等级描述的一致，否则整项测试就缺乏信度。这里就涉及定量与定性一致的问题。

试卷依据大纲拟制。按照设计，普通话水平测试由四项或五项内容组成，每一项测查的重点不一样，不同项不同得分能否保证最终得到的分数所表达的含义相同——每项得分不同，总分基本一致，即可获得相同的等级。

1.信度的比较

说到信度必须有比较，无比较就没有信度可言，也就不存在信度问题。通常可以从以下三个方面来研究信度并进行比较。

（1）测试的稳定性。常用的办法是测试—再测试。所谓测试—再测试法，就是将试题库中的若干试卷由同一个应试人进行测试，比较测试的结果是否相同。测试结果不相同的试卷应进行修正或作废。当然这样的测试比较前提是应试人是同一个人，测试员是同一批人。

现行的试卷基本上没有进行这样的测试比较。国家试题库中抽取的试卷也只是采用人工干预的方法，适当调整一些字词的分布，部分省市还在使用人工拟制的试卷，这些试卷都没有经过区分度的检测，缺乏信度。

（2）测试的等值性。采用等值卷法，也叫等值法。用同一测试的两份等值试卷对同一批人进行测试。测试之后，比较两次测试的成绩，算出相关系数，判断两次测试的等值性。有时，采用测试—再测试法时也用等值卷。这样，既可以研究等值性，也可以研究稳定性。

测试类型应具有较高区分度，能被重复使用。把各种类型的考题集中在一份试卷中，测试类型的同质性越强，把各自的得分加起来的效果也就越明显。一项完善的测试（极其有效和可靠）实际上往往是不可能的，因为在其所需要的环境中，测试要占用大量的时间和训练有素的人力，甚至需要代价高昂或精心准备的媒介系统或评分程序等。

等值法的采用也有一个前提，即测试员要同一批。

（3）测试的内部一致性。测试的内部一致性用得比较多的方法是分半法。用一份试卷测试，然后把试卷按题分成若干份，分题进行测试，比较测试结果。目前在试验的计算机协助测试必须先进行分题测试比较，确定评分标准的科学性和合理性，再行推广使用。

信度可以为我们消除关于测试结果纯粹数值相加的疑点。这种数值相加是指把一组数值一加了事，可实际上它们之间或多或少地存在着密切的关系，并进而需要采取截然不同的对策。比如甲和乙都考了71分，但他们的错误和缺陷类型不同，甲完全没有舌尖后音，其余发音基本标准，而乙则是错误类型分散，而舌尖后音倒没有问题。按照这两个人获得的分数等级都是二级乙等。恰当的信度能够保证所有的语音错误和缺陷类型是相互关联的，因为信度能够表明测试作为整体具有一致性，从测试的任何一部分取得的分值，均与其他部分的分值具有对应关系。

2.提高测试的信度

要提高测试的可信性，或者说要提高测试的信度，必须尽可能减少测量误差，增强测试的客观性和准确性。主要方法有：

（1）适当增加题量。题目多一些，覆盖面大一些，考量的范围就广一些，这在一定程度上可以减少测试误差。曾经有人提出“说话”项的考核可以分成单向说话和双向对话两种类型，“朗读”项考核采用指定朗读材料与临时确定朗读材料相结合的方式，都是很好的设想。但这样的设计，测试难度加大了，对测试员的要求提高了，测试时间拉长了，反而影响测试的准确性。

（2）要注意评分项的同质性。同质性，指的是评分项的相似程度，或者一致程度。对于测试员来说，评分项的一致性还体现在对评分标准把握的一致性上。对每一个评分项的内涵要明确，如“说话”评分项不包括音色、内容的文学性、偏题等；对评分标准的每一个指标要明确，如“视程度”。

（3）控制好题项的难易度。朗读材料的难易度差别较大，需要进行认真科学的对比分析，“说话”话题也需要进行难易度的梳理。

（4）尽可能消除各种干扰因素。要让全体应试人能够在十分相似的测试环境中参加测试。测试环境要安静、轻松、自然和谐，场地应相对固定。测试的过程中受到的干扰少，测试的信度就会高。

（5）改进评分方法，提高评分的客观性和准确性。评分标准要明确，评分细则要统一。

3.处理好主观与客观的关系

普通话水平测试是一种主观性测试，这种面对面的口语测试方式，需要凭借测试员的现场判断，确定应试人的语音、词汇、语法等的规范和熟练程度。测试员在评判时，依据的是普通话水平测试评分标准。有两个问题需要关注：

一是评分标准的模糊性。评分标准中，对“语音缺陷”的判定是模糊的，对“语调偏误”“停连不当”“朗读不流畅”“方音”等的评判是模糊的，有些还采用“视程度”的表述方式。这对几万人的测试员来说，“度”的把握还是差别比较大的。2004年，在国家语委举行的新《大纲》师资培训班上，来自全国的骨干测试员进行了测评实践，结果令人大跌眼镜：同一个测试样本，居然出现了四个不同的等级！实在难以置信。在全国各地的二轮培训中，同样的现象层出不穷。这说明一个什么问题？是由于评分标准的不明确性，还是样本的模糊性？评分标准的模糊性肯定是重要的原因。这又如何保证测试的信度呢？

二是测试员队伍建设问题。目前的测试员队伍，由多种层次、不同职业、不同年龄段的人员组成，语言学知识普遍缺乏，测试基本理论薄弱，入行的目的性不同，职业态度有差异，自然就会造成评分结果的千差万别。上面所说的例子在部分地区实行录音评审（即先采集应试人的录音样本，再上传到网上，由测试员通过网络进行评审）时也出现了同样的情况，最严重的一次评审结果的错等级率达到半数以上。这样的评审结果又有多少信度可言？所以测试员素质是保证普通话水平测试信度的重要条件，实施测试员的业务分项培训显得尤为必要。

（二）效度

评估测试质量，首先要研究的是测试的有效性问题。测试的有效程度称为效度。评估时要了解，普通话水平测试能在多大程度上测出预定要测量的东西，或者说，能在多大的程度上完成预期的测量任务。

效度则是测试本身的可靠性，也就是测试与被测内容之间的联系。

在普通话水平测试中，效度比信度更加重要。我们需要做的假设是，经过学术委员会论证的普通话水平测试是具有足够的信度的，等级标准的描述在定量和定性方面是经过反复的抽样测试的，分数与等级能够比较和谐地保持一致；从试题库中抽取的试卷也能保证测试的信度。在这样的情况下，充分保证测试的效度就显得十分重要。

提到效度往往要涉及这样几种类型，即卷面效度、内容效度、结构效度、预测效度和共时效度。这些效度中，测试员的专业判断是相当大的一个制约因素，测试成绩的是否真实可信是保证测试能否顺利推进和延续的关键因素。

普通话水平测试是一种直接性测试。严格来讲，语言测试都是间接的，因为语言能力是一种内化的能力，无法直接测量，我们能够测量的是语言能力的外在表征。在这个层次上，普通话水平测试是通过对应试人所输出的语言表征的直接抽样来考察的，简单来说，它直接考“朗读”和“说话”，所以可以认为是一种直接测试。如果采用汉语拼音的测试方法，就属于间接测试了。在普通话水平测试研制之初，曾经有过采用直接测试还是间接测试的争论，也曾试验过将两者结合起来的方法。直接测试比间接测试有更高的效度，但信度不如后者。

活语言无法进行全面的描述、教学或测试。任何样本都无法展示语言的多变性和无限性的本质，从这个意义上来说，语言样本是不恰当的。但语言的生命力是依靠其自身的创造力来体现的，因此样本又是恰当的。语言标准的不精确性产生了测试的模糊性。正是这种模糊性，需要测试员有足够的判断力和理解力，才能保证测试的相对公平和合理。

最理想的测试员应该精通语言学基本理论，能解释各种各样的语言现象并对其加以评判，熟练掌握和运用汉语拼音方案，了解方言的基本特征，自身的普通话水平接近或达到纯正程度。从测试的最终目的出发，测试员还应掌握国家语言政策，热爱语言文字工作，具有语言教学经验，熟练掌握普通话评分标准，能从事语言培训和诊疗工作。

测试员的业务水平、工作态度、工作环境等自然会影响测试效度。从人数上看，每天测试达到30人以上，工作效率会大大降低，测试效度减弱。目前曾有测试员在网络测试中，每天的测试量达到50人以上，这是为求量而牺牲质的典型例子，一方面造成资源浪费，另一方面提高了错档率，增加了测试成本，非常不可取。测试员的层次差异性严重影响测试效度。

内容效度可以消除我们对样本的疑虑，我们可能会对语言样本的选择不放心，但是如果邀请别的有关专家对所选样本进行审查，可以使我们消除疑虑。建立有效的复审机制，是保证普通话水平测试效度的重要手段。

复审是为了保证测试效度的一种手段，但由于复审形式与测试一样，并且往往是以一两位测试员的主观评判作为依据，难免出现偏颇。不同的时间、环境以及样本的非现场性，都是制约复审质量的因素。复审如果组织、实施不严谨、不科学，测试的有效性反而会受到负面影响。建立并完善复审机制，实属当务之急。

影响效度的因素是多种多样的，测试的目标、测试的内容、测试的方法、评分的标准、测试的组织、复审机制等都会影响测试的效度。应试人方面的一些主观因素，也会影响测试效度。如果其他因素不变，应试人能积极配合，遵守考场纪律，充分发挥自己的才能，测试的效度就会提高。反之，应试人情绪波动，临考怯场，加上考场比较混乱，测试的效度势必降低。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈