测量的信度和效度

时间：2023-04-22 理论教育版权反馈

【摘要】：四、测量的信度和效度在媒介调查中，任何一种收集精确资料的方法实际上都是一种测量，而对于任何一种测量手段或方法，必然会涉及到测量的信度和效度问题。要理解测量的信度，可以把测量分成两部分：第一部分表现了测量对象在测量中的真实值，这个值是未知的，是测量的目标量；第二部分代表了测量的随机误差。所以在正式实施测量之前，必须对测量的信度进行评价。

四、测量的信度和效度

在媒介调查中，任何一种收集精确资料的方法实际上都是一种测量，而对于任何一种测量手段或方法，必然会涉及到测量的信度和效度问题。

（一）测量的信度

信度即可靠性，是指测量工具能否稳定地测量所测的变量。它包括两方面的含义：第一，它指测量结果的一致性或稳定性，即若对同一对象重复进行测量，其所得结果相一致的程度。反复测量结果的稳定性或一致性可能很高，但却有可能是不准确的，例如，用零点没有调整的体重秤来测量体重，可能多次测量的结果是一致的，但测量是不准确的。所以信度还包括第二方面的含义，即测量的准确度，也就是测量值和测量对象与真实值的接近程度。

要理解测量的信度，可以把测量分成两部分：第一部分表现了测量对象在测量中的真实值，这个值是未知的，是测量的目标量；第二部分代表了测量的随机误差。随机误差的来源有很多种，可能是测量工具本身的缺陷或测量方法的不当引起的，也可能是人为的原因，等等。图1—4（a）和图1—4（b）分别表示对同一对象进行两次测量中的真实值、随机误差和测量值的关系。显然，这两次测量的结果是不一致的、测量是不稳定的，说明测量的信度存在问题。而就每一次测量来说，也可以从测量的真实值在测量值中的比重来估计测量的信度，例如这两次测量中，图1—4（a）所示的测量是信度相对较低的测量，图1—4（b）中所示的测量是信度相对较高的测量。

图1—4（a）　第一次测量结果

图1—4（b）　第二次测量结果

不具有信度的测量是毫无益处的，甚至是有害的。所以在正式实施测量之前，必须对测量的信度进行评价。在实际应用中，对信度的估计和评价是从三个方面分别进行的，即从稳定性分析、内在一致性分析和等价性分析三个方面来评价测量的信度。

1.稳定性分析

稳定性分析也叫做测验—再测验法，是最容易理解的一种方法，它描述的是对同一测量对象的同一特征变量，前后两次测量的结果是否基本一致，如果前后两次的测量结果是一致的，这个测量便具有稳定性。

在稳定性分析中，常用相关系数r来评估测量的信度。关于相关系数，将在第三章中详细讲述，这里只进行简单的说明。r的取值范围从-1到＋1之间，用来计算两个变量线性相关关系的强度，当r的值接近于±1时其相关关系最密切，当r的值接近于0时其相关关系最不密切。换句话说，如果两个变量是相关的，则可以说明随着一个变量值的增大，另一个变量值也有增大（或减小）的趋势。正的r表示两个变量是正向的相关，即随着一个变量值的增大，另一个变量值也会增大；负的r表示两个变量是负向的相关，即随着一个变量值的增大，另一个变量值反而会减小。

用相关系数确定测量稳定性的方法之一是“再测信度”，即用同一测量工具（例如问卷或问卷中的某个问题）对同一组测量对象在两个不同的时间内各测量一次，然后计算两次测量值的相关系数r。如果r接近＋1，就表示两次测量的结果是一致的。注意，如果只测量一个测量对象，则无法计算相关系数，只能通过对前后两次的测量值进行比较来评价。

但是，用这种方法评价测量的信度是有一定风险的，若两次测量时间间隔过短，第一次测量会对第二次测量产生影响，例如在问卷调查中被访者可能记得前一次的回答，从而导致偏高的信度；若两次测量的时间间隔较长，测量对象本身可能已经发生了变化，从而导致前后两次测量结果不一致，这本身跟信度是无关的，可是测量者常常会据此得出测量信度偏低的错误结论。所以，稳定性分析的两次测验相隔的时间不能过短、也不能过长，而且要有一定把握在两次测量的时间间隔内测量对象本身的实际情况没有发生对测量可能有影响的变化。

2.等价性分析

等价性分析测量的是复本信度。如果测量工具本身有复本，即对某一概念或变量进行测量时，存在两种等价的测量量表或测量问题，则可同时使用它们对同一组测量对象进行测量，然后计算分别用两个测量工具获得的测量值之间的相关系数，并用其评估测量的信度。复本类似于考试中的A、B卷，它是根据同一目的，编制出的两种等价的量表或问题。例如，在测量英语水平时同时使用A卷和B卷，如果一组被测对象在A卷和B卷得分的相关系数很高，就说明测量具有信度；如果两者差异很大，则测量缺乏信度。

复本信度可避免再测信度的缺点，但测量使用的必须是真正的复本，例如，要求A卷和B卷在题数、形式、内容及难度等方面都要一致，而如何建构两种真正等价的量表和测量问题又是新的难题。在绝大多数媒介研究中，都因难以构建等价的测量量表而不能采用等价性分析来评价测量的信度，但在媒介研究的重要方法之一——内容分析法中，常常用等价性去评价编码的信度，这将在第二章的第一节详细介绍。

3.内在一致性分析

内在一致性分析主要用于检验多项目量表的测量信度，即检验量表中各个项目的一致性。一个可信的量表，它的项目必须具有内在一致性。例如，用量表测量某个被访者某方面的态度时，该被访者对各个项目的回答中体现出的态度应该是一致的。如果量表具有内在一致性，把量表中的项目随机分成两部分，被访者在这两部分上的总得分应该是高度相关的。这种估计测量信度的方法称作折半法，只适合于评价量表的信度。

这种评价技术的优点是只需测量一次，但关键是如何把项目随机分成两半。常用的做法是按项目号的前后顺序或按项目号的奇偶性，例如按前半部分和后半部分，或者奇数项目和偶数项目，将量表分成两部分。由于折半法需要计算两部分的总得分，因此要注意先将量表中的反向题先作逆向处理，再分别计算两部分的总得分。

（二）测量的效度

测量的效度指的是测量的有效性，即测量工具能准确、真实、客观地度量事物属性的程度，主要表现在测量项目和欲测的测量属性相一致的程度、概念的操作化定义反映概念的本质定义的程度等。例如，如果想要了解测量对象的文化程度，文化程度是一个抽象的概念，以操作化定义“受教育的年限”或“最后学历”去测量都是有效的，而如果以操作化定义“通过的英语等级”去测量，测量就是无效的或是效度很低的。

测量的效度通常可分为三种类型：内容效度、效标效度和结构效度。

1.内容效度

内容效度也叫做表面效度，是最简单也是最基本的主观判断的方法，它仅从表面上观察和判断所测量的是否就是应该测量的项目。要判断一种测量方法是否具有表面效度，首先要清楚了解被测概念的定义，其次要判断所测量的变量是否与之紧密相关。例如，我们所熟知的“曹冲称象”的故事，欲测量的是大象的重量，最终测量的是使水位上升到同样位置的那些石头的重量，二者是等价的，所以测量是有效的。需要说明的是，在当时能做出测量有效的判断是建立在对水的浮力有一定认识的基础上。由此也可以看出，对表面效度的评价要求评价者有足够的知识、经验和能力作基础。此外，为了尽量减少判断的主观性，最好的做法是请一些专家来共同判断。

在一般的媒介调查中，评价内容效度较常用的方法：

（1）选择对有关情况比较了解的人或专家来鉴定测量的效度。

（2）在调查以外寻找一些有关的、已经核实的资料来进行比较。

（3）采用逻辑检查的办法来鉴定测量的效度。例如，在问卷调查中，可以多次检查问卷中的问题是不是都测量了所要测量的东西，其测量的准确与精细的程度如何；检查调查问卷中有无自相矛盾的地方以及有无导致被访者做出自相矛盾回答的可能。

2.效标效度

效标效度是判断量表测量效度的一种方法。所谓效标就是一个与量表有密切关联的独立标准。我们知道量表多是用来测量一些高度抽象的概念，其所测概念与效标密切相关的量表才是有效的量表。分析的方法是考察所测概念与效标是否有显著的相关；或是对效标的不同取值，量表的取值是否表现出显著的差异。

例如，如果研究人员已经证明了人们对电视的态度和他们收看电视的频率密切相关，他们设计了相应测量对电视态度的量表及测量收看频率的问题并进行了测量。如果测量的结果显示，测量到的态度果然与收视频率密切相关，就能证明态度量表的有效性。也就是说，当研究人员发现测量量表与效标的相符程度符合理论的预期，测量就符合效标效度。

效标的确定并不是一件容易的事，选择效标一般要根据某种已知的理论或某种已经得到肯定的结论。例如，杨孝潆在台湾实施的一项“兰屿民众传播行为与现代化程度之研究”中，利用有离岛经验的雅美族人和无离岛经验的雅美族人，作为测量现代化程度的独立标准。以有无离岛经验作为效标的前提是它与人的现代化程度确实有密切的关系，这种关系可以从“现代化”的概念（以现代工业、科学和技术革命为推动力，引起传统的农业社会向现代工业化社会的转变，以及在经济、政治、文化、思想各个领域引起相应深刻变革的历史过程，见《中国简明大百科全书》）以及生活常识中去把握。因此，在设计测量人的现代化程度的量表时，有无离岛经验的雅美族人之间，现代化程度的得分应该有明显的差异。只有对效标的不同取值，量表的得分表现出显著差异的量表才有可能是高效度的量表。如果达不到这个目标，就要剔除那些没有显著差异的降低量表效度的题项。

3.结构效度

结构效度是判断量表测量效度的一种重要方法，它主要用于评价量表测量的结果是否与理论假设或理论构架相一致。研究者在设计测量量表时，一般都是从所研究问题的理论构架出发，假设某种结构存在，然后按照这种结构来具体设计提问的题项从而形成量表。如果所用的量表的确能反映出这种真正的结构，则说明该量表具有较高的结构效度。

对于结构效度的测量，常用的方法在小样本试调查的基础上采用因子分析法进行评价。因子分析法是一种高级的统计分析法，在此使用的基本思路是将量表中的题项按照相似性划分为不同的类别，使每一个类别中所有题项都共同描述一个概念（在因子分析中叫做公因子）。这些概念就组成量表的实际结构。然后比较量表的实际结构与该量表所要测量的理论结构（理论构架）之间的异同。如果两者非常吻合，则说明该测量量表具有较高的结构效度。

结构效度还有另一层含义，就是评价量表中的各个题项能否有效地区分研究对象。例如，各个题项是否能够有效地鉴别态度或观念不同的被访者；题项内容的难易度是否合适。对于这层意义的结构效度，即测量量表中各个题项的“难易度”和“鉴别度”，常用的方法是项目分析。

（1）难易度。所谓难易度指的是题项（项目）的难易程度，即被访者“通过”该题项“测验”的难易程度，一般用“高分组”和“低分组”在该题项上的平均“通过率”来表示：

难易度＝（P_H＋P_L）/2

其中，P_H和P_L分别表示高分组和低分组的通过率。计算方法如下：按反向题经过了逆向处理后的累加量表，将总分按由小到大的顺序排列后划分成几个组，一般分成人数相等的四个组，分数最高和最低的两个组就分别称为“高分组”和“低分组”。然后计算这两个组的被访者在每个题项上的“通过率”P_H和P_L。例如，在常用的李克量表中，这两个组的被访者在该题项中选“非常同意”或“比较同意”的比例（对于反向题，则为选“很不同意”和“不太同意”的比例），分别就是所求的“高分组”和“低分组”在该题项上的“通过率”P_H和P_L。因此，在某个题项的“通过率”就表示对该题项持肯定、积极态度的比例（对于反向题，则表示持否定、消极态度的比例），该题项的难易度就是高分组和低分组在该题项上通过率的平均值。难易度越大，表示该题项越“容易通过”。在媒介研究所常用的态度量表中，一般应保留难易度适中（0.5左右）的题项。

（2）鉴别度。鉴别度用于表示量表中各个题项对所测概念的区分能力。一般用“高分组”和“低分组”在该题项上的“通过率”之差来表示，即：

鉴别度＝P_H-P_L

显然，如果“高分组”和“低分组”的被访者对某个题项反应的差异越大，即持肯定、积极（或否定、消极）态度的比例之差越大，则说明该题项的鉴别度越大。一般情况下，希望量表中各个题项的鉴别度高一些为好。

以上列举了效度分析的几种方法。在实际中，关于效度的检验，常常是从几个方面来综合考虑的，内容效度、结构效度和效标效度是应该优先进行考虑的，在保证了这几种效度的前提下进行的项目分析才是有意义的。

（三）信度和效度的统一

信度和效度是一个有效的测量所必备的两个主要条件。信度和效度之间存在着一定的关系：信度是效度的必要条件而非充分条件。换言之，信度高的测量，其效度不一定高；但是效度高的测量，其信度必定也高。

根据测量的信度和效度，一般有以下几种类型的测量：

1.可信并有效

这是准确测量的必备条件。在这种情况下就可测出研究者真正要测的事物属性和特征。

2.可信但无效

这是可靠的测量，但在研究者特定的测量目标上无效，它可能在其他目标上有效。研究者也必须调整测量工具，才能准确测量既定的目标。

3.不可信但有效