问卷和量表的质量

时间：2023-04-14 理论教育版权反馈

【摘要】：在传媒心理学研究中，无论是问卷或是量表，都是在进行测量。测量的可靠性和准确性，成为研究者十分关心的问题，也是研究科学性的重要表现。高信度的测量很少受随机因素或事件的干扰，能准确无误地测量出人们的心理特征和各种心理过程。并行法可同时连续实施，也可相距一段时间分两次实施。并行法的缺点是两次真实分数的相等性受到质疑。

在传媒心理学研究中，无论是问卷或是量表，都是在进行测量。测量的可靠性和准确性，成为研究者十分关心的问题，也是研究科学性的重要表现。

一、信　度

信度（reliability）是重复测量产生相同结果的准确（相近）程度。对同一变量反复进行测量，结果是否大致相同；测量值与“真值”的接近程度如何。

信度比较标准的定义为：测量结果反映出系统变异的程度。高信度的测量很少受随机因素或事件的干扰，能准确无误地测量出人们的心理特征和各种心理过程。信度用相关系数r表示，当r为1表示完全可靠，研究中很少出现；当r在统计上达到显著水平，就认为具有较高信度。信度的具体考评可从以下三方面进行。

（一）重复法

重复法（repeat method）就是对原有的测量过程进行复制，可以对研究过程、研究工具、研究结果的信度做出直观的判定，是判断测量信度的基本方法。常用重测信度（test-retest reliability）来衡量重复法的信度水平。重测信度，又称稳定系数（Coefficient of Stability），是同一量表在同一样本中测量两次或多次，用皮尔逊积差相关来表示。使用中要注意，相隔时间中没有发生对测量结果有影响的变化。

如1980年，美国学者杰佛里·赛克（Sacks）对207名被试进行了两次问卷调查，内容是关于被试的生活习惯与行为，两次调查相差3个月，问卷完全一样。调查结果显示，只有15%的被试在两次调查中提供的信息完全一致。可见调查的信度不高。大多数经典的测量是能够重复验证的。如艾森克人格问卷简式量表中国版（钱铭怡等，2000）的修订，相隔3周的重测信度分别为：P量表0.67、E量表0.88、N量表0.80、L量表0.78，所有检验都达到极显著水平。

重复法的优点是，提供有关测验结果是否随时间而变化，可作为预测被试未来表现的依据。重复法的缺点有：易受练习和记忆的影响，前后两次测验间隔的时间要适当。间隔太短，被试记忆犹新，第二次测验分数会提高，不过如果题数够多可减少影响。间隔太长，受被试成长的影响，稳定系数可能会降低。

（二）并行法

并行法（parallel-form method）又称对等法，常用复本信度作为衡量信度的指标。复本信度（alternate-form reliability）是对同一组被试实施同一性质的两个测验（复本），所得结果的皮尔逊积差相关。如斯坦福—比奈智力测验（1937年版）就有L和M两种测验，同时进行这两种测验所得的信度系数是0.91。

并行法可同时连续实施，也可相距一段时间分两次实施。同时连续实施的复本信度称等值系数（Coefficient of Equivalence）。相距一段时间分两次实施的复本信度称稳定和等值系数（Coefficient of Stability and Equivalence），表示由內容和时间变化所造成的误差。

以复本评价信度的方法，可避免再测法的缺点，但所使用的必须是真正的复本，在题数、型式、内容、难度、鉴别度等方面保持一致。

并行法的优点有：复本是评价测验信度的最好方法，但是编制复本相当困难；不受意义效用的影响；测量误差的相关性通常比重复法低。并行法的缺点是两次真实分数的相等性受到质疑。

复本信度的一种变化是评分者信度。评分者信度是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。

评分者信度在内容分析中广泛运用。当两个（或多个）评分者或编码员去判断同一现象时，评价结果是否一致或相关，也叫评分者内在信度（inter-rater reliability）或编码员间信度（inter-coder reliability）。常用计算方法为：

霍斯提（Holsti）公式：用一致性的百分比来表示。如两个编码员分别同时做了m1和m2个单位的编码，其中一致的编码为m，则编码员间信度＝2m/（m1＋m2）。类别的数目越少，由于偶然性造成一致的可能性越大（分2类，随机编码可能有50%的信度，分5类，随机编码可能有20%的信度。）

（四）折半法

折半法（Split Half Method），使用折半信度系数（split-half coefficient）或称內部一致性信度（internal consistency reliability）为指标。如果测验没有复本，也不可能进行重复测量，只能考察测验内部各题目所测内容的一致性。如果一个测验可靠，这个测验所包括的题目就应该前后一致。

内在一致性信度是反映测验内部所有题目间一致性程度的信度指标。题目的一致性有两层含义：一是所有测验题目反映同一特质；二是各个题目之间有较高的相关。

二、效度

效度（validity）是指所测量的内容在多大程度上满足了研究者所想要测量的特征。这里有两层含义：一是测量手段是否测量了所研究的概念，而不是其他概念；二是该概念被准确测量的程度。如我们想测量青少年的智商，却使用了测量自信心的量表，就没有效度。

效度的指标比较复杂，类似于信度系数的公式，下面介绍最主要的几种。

（一）内容效度

内容效度（content validity），又叫表面效度（face validity）、抽样效度（Sampling validity）、逻辑效度（Logical validity），是指测量在多大程度包含了预测的内容范围。如研究者要测量电视剧的“偏见”，那么测量的内容能否反映种族偏见、宗教偏见、性别偏见等。

内容效度的评定主要通过经验判断，由研究者和课题组外的专家对量表的效度进行主观评价，通常是由专家根据测验题目和双向细目表（two-way specification table）做系统的比较判断，分析题目是否恰当地代表了希望测量的内容。

内容效度评定的一个常用指标是内容效度比（content validity ratio），用CVR表示，计算公式为：

CVR＝（Ne—N/2）/（N/2）

式中，N表示专家总人数，Ne表示专家中认为测量或题目很好地代表了测量内容的人数。

双向细目表是一种检验测量内容和测量目标的列联表。一般地，表的纵向列出的各项是要测量的内容，横向列出的是测量的目的，方格内是题目所占的比例。双向细目表大量应用在学校的试卷命题和分析中，对问卷和量表的分析也十分有用。

（二）效标效度

效标效度（Criterion validity），又称准则关联效度（Criterion-related validity）、实用效度（Pragmatic validity）、实证效度（Empirical validity）、统计效度（Statistical validity），是以测量分数同作为外在标准的效标之间的关联程度来表示的一种效度。

效标（criterion）是衡量测量结果有效性的参照标准，是体现测量目的独立于测量内容之外的一个变量。如有证据表明进入大学的高考高分学生在大学学习成绩上优于低分学生，则可认为高考分数是大学生学习成绩的效标。

效标效度有两种形式，同时效度（concurrent validity）和预测效度（predictive validity）。当效标数据与测量数据同时获得并进行比较时，就得出同时效度。如研究者调查儿童观看电视时间的同时，也调查家长认为孩子看电视的时间，并进行比较，就构成同时效度。同时效度能反映测量能在什么程度上取代效标。如果效标数据与测量数据不同时获得，计算出的效标就是预测效度。预测效度实际上是测验结果与一段时间后的行为表现（预测标准）之间的相关程度。

估计效标效度的主要方法有：

第一，相关法。相关法就是用相关系数来描述同一组被试在某个测量工具上的得分与他们在效标测量上的得分之间的关系，这种数量指标也称为效度系数（validity coefficient）。相关系数的获得有两种情况：如果测验分数与效标量分数都是连续变量，则用积差相关公式求相关系数；如果测验分数是连续变量，而效标量分数是二分变量，则用二列相关公式求相关系数。

第二，区分法。具体程序是让被试接受一个测验，然后让他们学习一段时间，再根据学习成绩（效标测量）的好坏将其分为两组，分析这两组被试原来接受测验的分数差异。区分法的关键是用先进行测验的得分来区分由效标测验所定义的团体。如某学校通过入学考试录取了一批学生，经过一段时间的学习后，依据学习成绩的高低将其分为合格和不合格两组，然后通过检查他们的入学成绩，运用统计方法来检验两组被试在入学测验上的平均分是否有显著差异。若差异不显著，则说明入学考试不一定有效度；若有显著差异，则入学考试一定有效度。

在《大众传播对儿童的社会化和现代化观念的影响》的研究中，卜卫用两个量表（知识量表和态度量表）来测定儿童的现代化观念程度，态度量表见第4节的李克特量表，知识量表采用的陈述如下：

1.我国人大常委会委员长是万里。

2.美国总统是戈尔巴乔夫。

3.儿童抽烟是违法行为。

4.工人、农民、教师和科学家都是脑力劳动者。

5.因为粗心，打碎十二个鸡蛋比打碎两个鸡蛋的行为更不好。

卜卫用了四个效标检验量表的效度，方法是分别按效标值数量的多少将受访儿童分成两组，检验这两组在知识量表和态度量表的平均总得分之间是否有显著差异。下表是t检验的概率值，几乎都等于零，说明每两组的均值都有显著的差异。因此可以认为两个量表都有较高的效度。

表10.2　儿童社会化程度测量量表的独立标准效度分析（t检验的概率值）

第三，命中法。当测验用来做取舍的依据时，测验是否有效的指标就是正确决策的比例。判断决策正确性有两个指标：

总命中率（P_ct）是正确决定数目（命中）对总决策数目（N）的比例。

P_ct＝命中/（命中＋失误）＝命中/N。P_ct值越大说明测验越有效。

正命中率（P_cp）是所有被选择的人成功的比例

P_cp＝成功人数/选择人数。P_cp值越大说明测验越有效。

（三）结构效度

结构效度（structure validity）是测验对某种理论构想或特质所能体现测量的程度。传媒心理学研究中的动机、效果、影响等作为假设性的概念或特质，通常无法直接度量，这些构想只能在理论基础上通过操作性定义的测验来加以测量。结构效度就是用于评价测量的结果与理论假设的相关程度。

估计结构效度的方法有：

第一，测验内方法。通过分析测验的内部构造来获取效度证据。如通过分析测验的内容、被试对题目的反应、测验题目的同质性以及分测验之间的关系来判断测验的结构效度。

第二，测验间方法。统计计算测验与标准化测验的相关来获取效度证据。如在评价新编的智力测验时，通常要与斯坦福—比纳智力测验或韦氏智力测验进行比较。

第三，因子分析法。通过对一组测验项目进行因素分析，找出影响测验的共同因素。其基本思路是将量表中的题项集合成不同的群，使每一个群共享一个公共因子，这些公共因子就代表量表的基本结构。比较公共因子和量表所要测量的现象的理论框架之间的异同。如两者吻合，且公共因子对原始变量具有足够的代表性（方差贡献率高），则说明量表的结构效度好。

表10.3　厦门受众的媒体使用动机量表的因子分析结果

说明动机量表有很好的结构效度。

第四，多特质—多方法矩阵。1959年坎贝尔和菲思克（Campbell＆Fiske）提出多特质—多方法矩阵（multitrait-multimethod matrix），采用两种以上的方法测量两种以上的特质。特质与方法有多种搭配，其两两间相关系数组成多特质—多方法矩阵。如以不同方法测量相同特质所得分数之间的相关系数，即聚合效度（convergent validity），高于以相同方法测量不同特质所得分数的相关系数，即辨别效度（discriminant validity），且高于以不同方法测量不同特质所得分数的相关系数，则该测验具有较高效度。

三、信度与效度的关系

1.信度是效度的必要条件（necessary condition）而非充分条件（sufficient condition）

效度是测验的首要条件，信度是效度不可缺少的辅助品。无信度一定无效度。有效度一定有信度。

有信度不一定有效度。使用你家小区附近减肥品商店的秤，每次测量你的体重都是60 kg，那表示此秤具有信度，但是60 kg真是你的体重吗？也许你的真正体重是55kg。这表示此秤具有信度，但不一定具有效度。

表10.4　随机和系统误差同信度和效度的关系

2.效度受到信度的制约

一个测验的效度受到信度的制约，且小于信度。所以信度与效度的关系可分为三类：信度高，但效度低；信度和效度都高；信度和效度都低。

四、项目分析

当我们根据一定的理论构思设计出一套测验项目时，除了对项目的内容及内容效度进行精心地检查以外，还要对项目的编排、用词、数量、语义等方面进行分析和修正。这就需要对测验进行项目分析，项目分析主要测量各个题项的“难易度”和“鉴别度”。

难易度指被访者“通过”某题项“测验”的难易程度，即“高分组”和“低分组”通过率的平均数，传媒心理学研究中所用的态度调查量表，难易度一般为0.5。鉴别度为各个题项对所测特性的区别或鉴别能力，为“高分组”和“低分组”通过率之差，一般情况下，鉴别度高一些好。

难易度和鉴别度的计算方法为：

第一步，将测验按分数从高到低排序，分成上、中、下三组；其中Upper和Lower各占27%，Middle占46%。分数最高和最低的两个组分别叫“高分组”和“低分组”。如是李克特等累加量表，则要注意：反向题经过逆向处理，“非常同意”或“比较同意”的为通过（对于逆向问题，则选“很不同意”、“不太同意”为通过）。

第二步，分别计算“高分组”和“低分组”的被访者在每个题项上的“通过率”P_H和P L。

P_H＝某题通过的人数/高分组人数

P_L＝某题通过的人数/低分组人数

第三步，计算难易度和辨别度

某题项的难易度：P＝（P_H＋P_L）/2

某题项的辨别度：D＝P_H—P_L

如某题高分组有70%通过，低分组有25%通过，则此题的难易度，P＝（0.7＋0.25）＝0.475；此题的辨别度，D＝0.7—0.25＝0.45。

P值越高，难度越低；P值越低，难度越高。P等于0.5为中等难度。但如果是两种选择的题目（是否题），随机回答也能得到0.5的通过率。因此，对于难度P值应按照项目特点进行“机遇校正”（correction for chance），公式为：

P′＝KP—1

K—1式中，P′为校正后的难易度，K为题目的备选答案数。

若K＝5，则P′＝（5×0.475—1）/（5—1）＝0.34375，难度变高。

辨别度D越大，表示个别项目的反映与测验总分的一致性愈高。研究表明，项目辨别度在0.35以上时，就认为该项目有相当高的辨别能力；如辨别度在0.2以下，则辨别力比较低。

本章要点：

1.调查成功率是检验随机抽样调查质量的最重要标准。1999年5月美国民意研究学会公布了《随机拨号电话调查与入户调查结果分类及计算的标准定义》，被许多调查机构作为计算调查成功率的实用标准。

2.问卷是通过书面的方式，根据严格设计的题目或问题向研究对象收集资料和数据的一种方法。问卷设计的质量对研究的成败影响极大。根据调查目的、调查对象、调查方法来设计科学、有效的调查问卷，是一项技术性很强的工作。

3.量表是在调查或实验研究中，测量样本的态度、观念、性格、偏好等性质的数字度量时所采用的工具。传媒心理学研究中最常见的量表有李克特量表、顾特曼量表、瑟斯顿量表和语义差别量表。

4.重复法就是对原有的测量过程进行复制，可以对研究过程、研究工具、研究结果的信度做出直观的判定，是判断测量信度的基本方法。重测信度，又称稳定系数，是同一量表在同一样本中测量两次或多次，用皮尔逊积差相关来表示。

5.内容效度是指测量在多大程度包含了预测的内容范围。内容效度的评定主要通过经验判断，由研究者和课题组外的专家对量表的效度进行主观评价，通常是由专家根据测验题目和双向细目表做系统的比较判断，分析题目是否恰当地代表了希望测量的内容。

6.项目分析主要测量各个题项的“难易度”和“鉴别度”。难易度指被访者“通过”某题项“测验”的难易程度，即“高分组”和“低分组”通过率的平均数。鉴别度为各个题项对所测特性的区别或鉴别能力，为“高分组”和“低分组”通过率之差，一般情况下，鉴别度高一些好。

基本概念：

1.科学研究：是对观察到的现象可能存在的某种联系提出假设（hypothesis），并进行系统的（systemstic）、受控的（controlled）、实证性的（empirical）、批判性的（critical）调查研究。

2.定性研究与定量研究：定性研究是思辨的、逻辑推理式的研究，一般只使用第二手资料，得出结论。定量研究是实证的、归纳推理式的研究，一般要收集第一手资料，即通过观察现象得到的数据资料，从而得出结论。定量研究又分为质化和量化研究两种。常用的定量研究方法有实验法、内容分析法、元分析；常用的质化研究方法有访谈法、民族志等。

3.抽样研究：是在总体单位中按照随机原则抽取一定数量的样本进行研究，根据研究结果推断总体。

4.变量：是说明现象某种特征的概念，由变量名和变量值组成，按照变量值的性质分为四类：定类变量、定序变量、定距变量、定比变量。

5.信度与效度：信度指重复测量产生相同结果的准确（相近）程度。效度是指所测量的内容在多大程度上满足了调查者想要测量的特征。信度是效度的必要条件而非充分条件，效度是测验的首要条件，信度是效度不可缺少的辅助品。无信度一定无效度，有效度一定有信度，有信度不一定有效度。

思考题：

1.科学研究的基本特性是什么？

2.抽样调查的概念及其类型？

3.如何判断二手资料的实用性？

4.如何设计一份好的问卷？

5.请写出50个陈述，评价你最熟悉的某位教师的教学态度。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈