首页 百科知识 概念测量与测量质量评估

概念测量与测量质量评估

时间:2022-06-29 百科知识 版权反馈
【摘要】:4.3 概念测量与测量质量评估4.3.1 测量的层次研究社会现象,不仅仅是观察它,而且应该科学地度量它。很显然,定类测量等级的变量与分隔变量完全相同。值得注意的是,在进行定类测量时要保证测量工具所分类别具备穷尽性和互斥性。定序测量与定类测量的最大差别是定序测量引入了上下、高低的概念,但变量值之间的距离不确定。

4.3 概念测量与测量质量评估

4.3.1 测量的层次

研究社会现象,不仅仅是观察它,而且应该科学地度量它。测量是社会研究的重要环节。

1.测量的概念

(1)测量

在社会研究中,测量是指根据一定的规则,将研究对象的特定属性或特征(即研究变量)用数字或符号表示出来的过程,经由这一过程实现社会现象数量化或类型化。测量的主要作用是确定一个特定的分析单位的特定属性、类别或水平。

测量的主要作用在于做出准确的分类,以便比较研究对象的各种差异,这些差异可用类别、等级数字区分,通过对差异的比较和分析就能找出现象之间的因果联系,也可以获得更客观、精确的资料,但使用不当也可能造成研究的失败,尤其是在研究个人的心理或态度特征时,如果片面地强调以数量来区分某种特征的差异,常常会导致错误的结论。与自然科学相比,社会现象测量的可重复性低,从而也降低了社会测量的精确性。

(2)对概念的说明

研究变量是从对概念的界定和具体化转化而来的,在研究中,它是分析单位所具有的特征或属性。例如,在考查学生的外语能力时,我们可用外语考试分数来反映这一特征。这里,外语能力是研究变量,考试分数是外语能力的测量指标。在一具体研究中,每个变量都有特定的测量指标。研究变量是由“通过对概念的定义和一个或一组有效的测量指标构成的”。

数字或符号。测量时得到的数值可作为某一现象或事件特征的代表符号。这里的符号是抽象的,仅仅表示现象或事物的特性,而不是社会现象本身。这些符号只有在我们给它赋予具体含义时才有意义。

分派规则。社会研究中的测量是将各个分析单位与它们的特征或属性用数字分派规则联系起来。规则是指操作的方法或索引,它指导研究人员如何实施测量。

确定分派数字的规则是测量中最基本、最困难的工作。有效的测量规则必须满足三个条件:一要准确,指分派的数字或符号能真实、可靠、有效地反映调查对象在属性和特征上的差异。如在英语考试中,甲得80分,乙得60分,这两个分数是否能真实反映两人在外语能力上的差异就取决于试题和判分标准的准确性。用数学的概念表述就是,如果真实状态与符号系统在结构上具有一致的关系,那么两者就具有同构性,同构性越高,所观测的资料就越准确,越有效。二要穷尽(Exclusive Attributes),指分派规则必须能包括研究变量的各种状态或变化的个案都必须符合变量全部属性中的某一个。例如要测量“外语能力”,如果一份试卷不能测出外语水平的高低程度,那它就是不完备的。又如“政治面貌”这一变量,如果只设置“中共党员”和“非党员”两个取值,那么就把其他党派成员排除在外了。三要具有互斥性(Mutually Exclusive Attributes),指分析单位必须符合而且只能符合变量的某个属性。也就是说,研究变量的取值必须是互不相容的。如“身份”变量取值为工人、农民、城市居民、干部等。在工人和城市居民中就不具备互斥性,因为一个人既可以是工人,也可以是城市居民,这种分类就无法准确说明一个人的身份。

2.测量的层次

由于对概念的测量有些方式比较精细或明确,有些方式则比较粗略或不明确,对于不同的变量需要使用不同的测量尺度,从测量的角度看,可将变量分为定类变量、定序变量、定距变量、定比变量四种类型。由于变量或指标的属性存在着质和量的大小,存在着大小、高低、强弱的有序性以及变量或指标的间断和连续,因此,在测量过程中,就形成了不同的测量层次。对变量的测量共有四个层次,即定类测量、定序测量、定距测量和定比测量,这四种测量层次测量变量的精确程度是不同的,从最不精确到最精确的程度,可以排列为:定类、定序、定距和定比,每个等级蕴含着不同的信息。

(1)定类测量(Nominal Measures)

定类测量本质上是一种分类体系,即将研究对象的不同属性和特征加以区分,标以不同的名称或符号,确定其类别。这样,变量的每一个值都构成一个类别,应该注意的是,这些类别的差异主要在于名称不同,没有高低之分。如“大学专业”就是一个定类测量等级的变量,它的类别有数学、化学、物理、外语、文学、公共事业管理学、社会学、法学等。很显然,定类测量等级的变量与分隔变量完全相同。值得注意的是,在进行定类测量时要保证测量工具所分类别具备穷尽性和互斥性。穷尽性是指包括各种可能的情况,使所有研究对象都有所属,不可遗漏;互斥性是指类与类之间互相排斥,互不交叉,即每个研究对象在分类体系中占据且只占据一个类别。

在对社会现象的测量中,大多数变量都是定类变量,所以该层次的测量最常用到,其他层次的测量也可降低到该层次来操作。定类测量由于不是估计总体的参数,因此需要非参数检验,定类测量的不足是强迫选择,有时会强迫受访者归入并非准确反映其真实立场的某一类别,例如,不是赞成就是反对,但有中立或模糊的情况。可见,它是一种粗略的测量,每个被统计的人都具有同样的价值。

(2)定序测量(Ordinal Measure)

定序测量是指一个变量所具有的值可以按高低、上下来排列。从与定类测量的关系上看,定序测量不但显示出变量值之间的差异,而且还把类别排出了等级或名次。例如,“社会阶层”可以有以下几个值,上层、中上层、中层、中下层和下层;“知识水平”分为高等、中等、低等。对某一事物的态度也可按顺序排列,从完全同意、同意、不同意到完全不同意。这些变量都属于定序测量。

定序测量与定类测量的最大差别是定序测量引入了上下、高低的概念,但变量值之间的距离不确定。例如,以社会阶层为例,我们无法确定上层与中上层之间的差距是否等同于中上层与中层之间的差距。

(3)定距测量(Interval Measure)

定距变量除了涵盖前面两个测量层次的功能外,还指出了类别之间差异的数量,也就是说,类别之间的距离可以用数字表示出来。如温度华氏90度与80度的差距就等于摄氏40度与50度之间的差距。典型的定距测量还有“学习成绩”,以及根据各种量表得到的测试结果,如智商、情商量表,态度量表的分数等。在定距测量中的数字“0”是相对的,“0”不代表“没有”或“不存在”,华氏0度不代表不存在温度。又如智商,智商在90~100的差距等于100~110的差距,但智商为“0”不等于毫无智力,只是说明智商很低。定距测量的数字特征不仅具有等于和不等于、大于和小于,还能进行加减运算。

(4)定比测量(Ratio Measure)

定比测量包含所有其他测量等级所能做的事,是所有测量层次中最高的。除具有定类、定序和定距层次所具有的数字特征外,它还能够进行乘除运算。它与定距测量很相似,但唯一的不同是,在定比测量中,有一个绝对的“0”。例如,“收入”是一个比率测量的变量,收入为0表示没有收入,年龄为0代表没有来到这个世界,或一出生就夭折。在大多数情况下,定距和定比的层次没有多大的差异。某些定距测量值的任意原点可能令人迷惑。例如,温度从30度升到50度,并不是温度真正增加了一倍,虽然数字的确是两倍,这是因为零度时,不是一点温度都没有。(16)

3.测量层次举例(见表4-3)

表4-3 测量层次及测量方法

img11

4.小结及应用

(1)定类、定序、定距、定比测量,测量的层次由低到高,逐渐上升。例如,符合定比测量变量所具有的数学属性是等于和不等于、大于和小于、加减乘除运算;符合定距测量变量具有的数学属性是等于和不等于、大于和小于、加减运算;符合定序测量变量具有的数学属性是等于和不等于、大于和不等于(见表4-4)。

表4-4 四种测量层次的数学特征

img12

(2)高层次测量具有低层次测量的所有功能。这里包含了两层含义:一是高层次的测量可测低层次的内容,也可测低层次无法测的内容,二是高层次的测量可降低到低层次来处理。不同层次有不同数学性质。由于高层次的测量信息多,因此应尽可能对社会现象进行高层次测量。这样,一个定比层次的测量值可以转化为定距、定序或定类层次,定距层次也常常被转换为定序或定类层次。

(3)一般来说,如果必须用到定序测量值,至少要使用五个定序类别,并且要取得许多样本量,因为把连续构想分解成较小数量的定序类别时所产生的偏差,会随着类别数目和样本数量的增多而减少。(17)

(4)尽管定比层次的测量等级最高,但在社会科学研究中却很少用到。就大部分的用处来说,它与定距测量并不容易区分,所以二者经常混用。

4.3.2 测量的质量评估

信度和效度是所有测量的中心议题。两者关注具体的测量是怎样与概念相连的。由于社会理论中的概念经常是模糊的、含混的和无法直接观察到的,因此,信度和效度就显得尤为重要。信度和效度是优良的测量工具所必备的条件,也是测量的两个基本原则,如果对测量工具的信度和效度一无所知,则无法判断其获得的资料的可靠性和有效程度。但事实上,完美的信度和效度是无法达到的,然而它们却是研究者努力追求理想

1.信度(Reliability)

(1)信度的含义

信度是指采用相同的研究技术重复测量同一对象时,得到相同研究结果的可靠性,简单地说就是可信赖程度。也就是说,信度是相对于测量的稳定性和一致性而言的。有信度就意味着由指标(如问卷)所提供的信息不会因为指标、工具或测量设计本身的特性而发生变化。例如,测量一个人的体重采用两种方法。让人估计体重:甲估计为50公斤,乙估计为60公斤,那么我们可以认为,让人估计体重的方法并不是非常可信的方法。另一种方法是用秤称:称两次,如结果相同,则说明磅秤的信度高,如果不同则称不可信。在测量体重上,这种方法要比让人估计的方法可信。但应注意,信度并不一定代表准确性。例如,为了让自己感觉好一点,可将磅秤调低5斤,虽然每次测量的结果相同,但也只是一再地重复错误而已。例如,某班有A、B、C、D、E五名学生,这五名学生的平时成绩向来稳定,分别是1、2、3、4、5。有两次测验,学生的成绩如表4-5所示。可以看出,②测验的可靠性比①测验要低。

表4-5 五名学生两次测验的成绩

在调查中,常用的测量工具是问卷。如果我们所用的问卷中的问题原来打算测量某一个概念,但由于设计不周密,问题或答案的范畴模糊或有多种解释,以致被问者不能确定如何回答,从而使回答达不到一致性要求,这就降低了测量的可靠程度,那么它的信度就成了问题。根据测量中误差变异的来源不同,信度可分为稳定信度、代表信度、相等信度三种。从统计角度看,上述三种信度都可以进行实际测试,并且每一种信度又有一种或数种的对应测试方法。信度类型与测试法对应如下:稳定信度——初测复测法、代表信度——小组分析法、相等信度——对折法与内在一致测试法。

(2)信度的类型及测量

(18)稳定信度(Stability Reliability)——初测复测法(Test-retest Method)。稳定信度与测量的时间有关,是跨越时间的信度。它实际上涉及的是如果在不同的时间下使用同一测量工具或指标进行测量,是否会得到相同结果。如果一个变量的测量指标在几次不同的时间的测量中都得到相同的回答,那么这个指标就具有稳定性度。这是一种最常用、最普遍的信度检查方法。如对生活习惯和行为的问卷中,相隔三个月的调查结果有很大差距,如第一次调查说母亲已故,而第二次调查时神奇地复生,则说明这个指标的稳定信度较低。

可使用初测复测法来检验指标具有稳定信度的程度,初测复测法是指使用相同的指标对同一组人再次施测或再做一次测量,如果所测量的事物是稳定的,指标也具有稳定信度,那么每次施测就会得到相同的结果。这种检查需要经过两次测量,然后测定两次测量之间的相关系数,由于相关系数的范围总是0~1,相关系数的数值较高,意味着稳定信度较高。这种信度能表示两次调查结果有无变动,可检查出被调查者是否能正确理解所提的问题,并做出真实稳定的回答。

在这种检验方法中,把握两次测量间隔的时间很重要,相隔时间太短,被调查者还记得上次的答案,因此,所测的就是他们的记忆,而不是他们此时的真实态度。隔的时间过长,可能会发生一些变故,影响被调查者的态度,从而影响测量的准确性。由于初测复测法受两次测量时间的影响,因此两次调查相隔的距离要适当。在社会测量中,两次测量间隔时间的长短主要取决于被测量对象的性质及研究者的经验和对具体情况的理解。(19)如果被测量事件的变化速度较快,间隔时间就要短些,反之,则间隔时间要长些。例如,对于人们价值观念的测量的两次间隔时间可以长些,因为价值观念在一个比较长的时间里变化不会很大。而对于人们对一些社会问题的评价可能变化较快,甚至不到半年就发生变化。

②代表信度(Representative Reliability)——复本信度。代表信度与测量的对象也就是被调查者有关,是跨越子总体或子群体的信度。它触及的问题是,如果使用同一个测量工具或指标对不同团体进行测量,会获得相同的答案吗?如果一个变量的测量指标在应用于不同的对象时都得到可靠的回答,那么,这个指标就具有代表信度。比如,20多岁的回答者给研究者超过他们实际年龄的答案,而50多岁的回答者给出低于他们真实年龄的答案,那么,年龄这个指标所具有的代表性就很低。这里,代表信度是指每个年龄组对他们的年龄都真实准确地回答。

可以使用复本来判定一个指标是否具有这种信度。复本是相对于原本而言的,它是原本的复本,即在题目数量、形式、内容、难度及鉴别度等方面与原本一致,仅在问法与用词方面与原本不同。比如考试时候出A、B两套试卷。

在社会研究中,研究者可设计两份研究问卷,每份使用不同的项目,但都用来测量同一概念或事物,对同一群对象同时用两份问卷测量,然后根据两份问卷所得的分数计算其相关系数,所得的值就是信度。这种测量方法的缺点是,虽然可以避免重测信度的缺点,但由于真正的复本很难做到与原本在形式、内容、难度和题量等上面基本一致,因此,要得到原本的真正复本是十分困难的。

③相等信度(Equivalence Reliability)——对折法(Split-half Method)。相等信度也译为等值信度,它通常用在研究者使用多重指标时,所以相等信度只有在变量本身是一个复杂的抽象概念,需要用多个指标来测量时才会出现。与变量的多个指标相关,如果多个指标都测量同一概念,那么,这些指标在测量中都应该起到相等的作用。假设我们用10个指标来测量自尊心这个变量,并且把这10个指标随意分成两组比较,那么,不管这两组指标分别包括哪些个别指标,每一组指标得出的回答模式都应该与另一组指标得出的回答模式相等。

可使用折半法来检验试题和问卷的相等信度。对折法就是把一个变量的多个指标随机分为两组。例如,将所有单数的指标分为一组,将双数的指标分为另一组,然后计算两组指标之间的相关系数,相关系数越高,相等信度越高。利用折半法可检查出问卷或量表中所询问的各项问题是否都针对同样的研究内容。例如,设计一份问卷,其中有10个问题涉及女性歧视的现象,采用此方法,将10个问题随机分成两组,每组五个问题,每组问题都应该是对女性歧视变量的测量,如果在前后两个部分项目上得分高度相关,则可认为这次测量是在测量同一问题或概念。

(3)影响信度的因素

在结构化、标准化程度较高的测量中,信度主要受随机误差的影响,随机误差越大,信度就越低。随机误差的来源主要有:

①调查者。如是否按规定的程序和标准,是否有意或无意地对调查者施加影响,记录的认真程度。

②被调查者。如是否耐心、认真、专注,不受情绪波动的影响。一般来说,调查的时间越长,提出的问题越多、越复杂,信度越低。

③测量内容。如提问时措辞含糊不清,不易理解,各个题目内部一致性低,题目少等。

④测量时间和环境。他人在场,两次测量的时间过长等。

⑤在非结构化和非标准化测量中。如参与观察和无结构式访问中,除偶然因素外,信度还受到研究者主观因素的影响,如个人偏见、思维定式、观察角度、主观武断以及世界观、价值观等的影响。

(4)提高信度的方法

完美的信度是罕见的。但要增进信度工具的信度,可参照以下四个原则:

①清楚地概念化所有的构想。研究者应努力发展没有任何模糊不清之处的理论定义。研究构想要有清晰的定义,以消除其他构想的杂音。(20)每个测量工具都应该预测一个,而且是唯一一个概念,否则就无法决定被预测出来的究竟是哪一个概念。

②增加测量变量指标的数量。增加一个变量的指标总数,可以提高测量的可靠性。对于同一个变量,使用两个或多个指标,会比只用一个好。多重指标允许研究者对一个概念定义的内容进行广泛的测量。有人将这种做法叫做从概念范畴中抽样(Sampling from the Conceptual Domain)。可以对概念的不同层面进行测量,每个层面都有自己的指标。例如问卷上的一个题目可能不够完美,但数个测量工具就更不可能犯下同样(系统)的错误。总之,多重指标测量工具会比单独一个项目的测量工具更为稳定。(21)

③提高变量的测量等级。测量层次比较高或比较精确的指标,可能会比测量层次不太精确的指标具有较高的信度,这是因为后者所获得的信息不如前者详细,在变量的四个测量等级中,定比测量优于顺序测量,定序测量又优于定类测量,从可靠性的角度看,这个顺序也是存在的。如果要测量的是比较特定的信息,那么就不太可能会测到那个概念以外的其他事物。一般的原则是,尽可能以最精确的等级来测量概念或构想。然而,以较高的测量层次进行测量在实际上是比较困难的事。例如,要测量士气,有两个测量工具,一个是有高或低两个值,另一个则从非常低到非常高有10个类别可选,在这种情况下,选择以10个精确的类别来测量就会比较好。

④进行前测或测试研究。在正式使用最终版本进行假设检验之前,先就某个测量工具发展出一个或多个测试。研究者拿测试问卷进行调查,看题目是否清楚明白,并进而修正问卷。这虽然比较消耗时间与精力,但是能够产生具有信度的测量工具。一个常用的简便的方法是进行试调查。有时候,我们的问卷中可能会含有不准确的提法,从而引起被调查者的误解,因此,在小范围内就问卷进行一次测试也有助于提高信度,测试能发现潜在的问题,使之得到及时地纠正。

这个原则还包括复制其他研究者使用过的测量工具。例如,研究者可以去查阅文献,寻找过去的研究曾经用来测量你使用的概念的工具。如果先前的测量工具是一个好工具,我们可以以该测量工具为基础并且使用它,当然,要注明来源。此外,研究者还可以添加若干新的指标,以比较它们与先前的测量工具之间的差别。通过这种方式,只要使用的是相同的定义,这个测量工具的质量将会历久弥新。

在社会研究中,测量信度是一个十分重要的基础议题,但即使完全达到信度的要求,也不能确定我们真正测量了应该测量的东西,这就涉及测量的效度问题。

2.测量的效度

(1)效度的含义

效度是指测量工具或手段能够准确测出所要测量变量的程度,或者说是能够准确、真实地度量事物属性的程度。简单地说,效度就是正确性的程度。效度越高,表示测量结果越能显示其所要测量的对象的真正特征。效度也是任何科学的测量工具所必备的条件。在选择测量工具和设计问卷表格时,首先要考虑效度,也就是要考虑测量出来的东西是否真的是研究者想要得到的东西,所测量的结果是否能真实有效地说明所要研究的对象。

(2)效度的分类

①内部效度(Internal Validity)

内部效度指实证测量手段(指标、问题等)能真正地反映概念或变量的真实含义的程度,是指研究计划的设计没有内部的错误存在。内部效度主要用于实验研究,是指尽管研究者尽力执行控制,但是结果还是可能有误或还是可能有其他的解释存在。内部效度低则很可能存在着这类错误,内部效度高意味着这类错误很少,它的资料和结论可以有效地解答所研究的问题。但是,这一研究结论的有效性是否可以适用于其他时间、地点和对象呢,这就涉及外部效度问题了。可以说,内部效度是指一项研究的资料和结论的有效性,而外部效度是指这种研究结论的普遍有效性。

②外部效度(External Validity)

外部效度主要用在实验研究上,是指把某个特定情境与小团体得到的发现推广到涵盖范围更广的情境与人群的能力。也就是说,如果某些发现是发生在实验室里,或某个特定的受试者团体(如大学生)中,可以把这些发现推广到“真实”(非实验室的)世界或一般社会大众(非大学生)身上吗?外部效度高是指结果可以推广到许多不同的情境与许多不同的类别人群上,而外部效度低则是指结果只能推广到某个非常特定的情境。比如,一项试验显示,饮酒导致人们思维能力下降,但这仅是一个实验结果,在现实生活中,饮酒是否会导致思维能力的下降呢?在寒冷的季节,饮酒是否会导致同样的结果呢?这些都是问题的外部效度问题。由此可以看出,对外部效度的检查要考虑样本的代表性和特殊性,以及研究时间、地点、情景和研究内容的普遍意义。例如,我们测量的变量是年龄,测量的手段是问卷上的一个问题:“你出生于何年何月?”由于年龄可以通过出生年月来计算,我们的测量手段对年龄的测量就具有很高的效度。

(3)效度的测量

测量效度有以下四种类型:

①表面效度(Face Validity)。表面效度是最容易做到的,也是最基本的效度类型,这是一种测量效度的共识法。我们认为表面效度是指人们对测量内容或测量指标与测量目的和要求之间的适合性和逻辑相符性的主观判断。认为某个指标确实能够测量到某个构想,它是科学共同体所做出的判断。换言之,从表面上看,人们相信定义与测量方法相符吗?例如,很少人会接受可用“1+1=?”这个问题来测量大学生的数学能力。从表面上看,这并不是一个对大学程度数学能力的有效测量工具。

表面效度实质上是个判断问题,根据贝利的说法,它必须考虑两个问题:一是测量工具所测量的真是调查者所想要测量的那种行为吗?二是测量工具是否提供了有关那种行为的适当样品?第一个问题涉及研究者的主观判断能力或对研究变量的全面了解,第二个问题取决于研究者对研究变量的全面了解。例如,政治知识的考试虽然不可能列出所有的内容,但是考卷中必须对政治知识的每一部分都列出几道题目,作为这一部分的样品。这样,就能通过考查这些样品是否代表了变量的各个部分来评判考卷的表面效度。

检查表面效度就是检查由概念到指标的经验推演是否符合逻辑,是否有效,对此只能凭借人们的主观判断和共同定义,因为对一个概念的理解是因人而异的,但在科学研究中,需要以大多数科学家所接受的概念定义为标准。

因此,表面效度基于个人的主观判断,对于那些人们的理解较易趋于一致的概念或变量,比较容易获得较高的表面效度。但在社会科学界,表面效度并不是得到广泛接受的效度的依据。每一个测量手段多少总具有一定的表面效度,但由于无法测定表面效度的程度,我们还不能运用表面效度来衡量我们的测量。

值得一提的是,尽管如此,对于初学者而言,设计测量工具后,可自己评价一下你的测量是否具有表面效度,比如首先要知道所测量的概念是如何定义的,然后要知道这种测量所收集的信息是否与该概念密切相关(最好能以权威的定义或指标作为参考,可根据具体情况适当增加指标,杜绝任意杜撰含义或指标),然后自己再做出判断。

②内容效度(Content Validity)。内容效度实际上是表面效度的特殊类型,是指我们的测量涵盖于测量的概念或变量的多种层面的程度。简单地讲,就是测量在多大程度上包含了概念的含义。内容效度触及的问题是测量工具将定义的所有内容都代表出来了吗?例如,高考是否全面测试了学生在高中阶段学到的知识呢?在这方面,一张选题全面的考卷的内涵效度就高于一张选题片面的考卷,这是我们在日常生活中常常遇到的内涵效度问题。概念或抽象变量常常具有多种层面,如“社会阶层”概念,对其下定义的时候,我们就指出它包括教育程度、收入程度和职业这些层面,只测量社会阶层的收入层面的测量手段显然缺乏内容效度。因此,内容效度问题实际上就是一个全面性的问题。但由于一个概念或变量的各种层面很难客观地界定,因此,对内容效度的测定也是通过主观判断来取得的。

③准则效度(Criterion Validity)。准则效度又称标准关联效度(Criterion-Related Validity)、预测效度,抑或效标效度。准则是被假设或被定义为有效的测量标准,符合这种标准的测量工具可以作为测量某一特定现象或概念的效标。准则效度就是指对同一概念的测量可以使用多种测量手段或工具,利用一些已经建立的标准或范畴来测量一个新的测量手段,以测量测量工具与效标是否一致性。两种测量手段之间的相关系数代表着准则效度的有效度,相关系数越高,有效度越高。比如汽车驾照笔试的效度在于笔试成绩与考生实际驾驶技术之间的关系。这里,驾驶能力就是标准。因此,标准效度与表面效度、内容效度都不同,它本身能够通过其他测量手段得到间接的测量。

准则效度的测定主要分为两个大类:第一类是一致效度(Concurrent Validity),用一个已被证明具有效度的测量手段作为准则检验另一个测量手段,检验一个需要测试的测量手段与一个效度已经得到证明的测量手段之间的相关系数。例如,“智商”是我们要测量的概念,而IQ测验是一个效度已经得到证明的测量智商的手段,如果我们又发展了一个新的测试智商的测量手段,那么,新的测量手段要与测验有很高的相关系数,换言之,一个在IQ测验中取得高分的人必须在新的测量手段中也获得高分,反之亦然,新、老手段对测试者一致的鉴别力是一致效度存在的前提,其中老的手段构成了检验新手段的准则。第二类是预测效度(Predictive Validity),即用一个发生在后的测量手段作为准则检验发生在前的测量手段,以检验两者的一致性,我们的测试就具有预测效度。也就是说它的检验准则是将来发生的事件或行为。比如,测量大学生“学习能力”这个变量时,我们可借助两个测量手段,即“学生在全国大学生入学考试的成绩”与“入学后在大学期间的分数”。其中,在大学期间的分数能检验大学生入学考试的预测能力,如果在大学生入学考试中取得高分的学生在入大学以后平均成绩也高,在大学生入学考试中取得较低分数的学生在入学后的平均成绩也较低,那么,大学生入学考试作为测量学习能力的手段就有了很高的预测效度。

在准则效度中,被测量的只有一个概念或变量,但有两个测量手段在同时量度这一个概念或变量,而不是搞主观判断。它的局限性是有些作为效标的测量手段只是鉴定有效的,它本身是否真正有效并没有理论依据,这一缺陷是心理量度化方法所共有的。

④结构效度(Construct Validity)。结构效度也称建构效度或概念效度,其目的是了解测量手段是否反映了概念和命题的内部结构。它论及的问题是,如果这个测量工具有效度,不同指标会产生一致的结果吗?它通常在理论性研究中使用。由于它是通过与理论假设相比较来检查的,因此也称为理论效度。

假设概念X与概念Y在理论和经验中相关(X、Y都有多个指标),当用X和Y的多个指标来测量两个概念之间的关系时,如果不同指标的测量都反映出理论所假设的关系,那么,这些测量就具有建构效度。

例如,假设工作积极性(x)和对闲暇时间的利用(y)正相关。对工作积极性可以在经验层次上选择两个指标:工作的主动性程度x1和工作动机x2。对闲暇时间的利用的指标:有效活动占有率y1。如果x1与y1,x2与y1都是正相关,则称这一测量工具或理论具有建构效度,反之亦然。

3.信度和效度的关系

信度和效度是评价调查结果的两个既相互区别又相互联系的问题。一个成功的社会调查,不仅应该有较高的信度,而且应该有较高的效度,应该实现信度和效度的高度统一。信度是对调查对象而言的,它主要回答调查结果的一致性、稳定性和可靠性问题,效度是对调查所要说明的问题而言的,它主要回答调查结果的有效性和正确性问题。(22)

信度和效度都是科学的测量工具所必须满足的条件。信度是效度的必要条件,也比效度更容易得到。测量工具有信度并不能保证该测量工具也一定具有效度。信度不是效度的充分条件,测量工具可以每次都产生相同的结果(信度),但是它测量的东西可能完全不符合构想的定义(即效度)。测量工具有可能只有信度,却不具有效度。如用一个计量不准确的体重秤称体重,尽管每次称的结果是一样的,但与被测者真实的体重不一致,所以这个体重秤不具有效度。

具体来说,信度和效度的关系是:信度低,效度就不可能高。如果收集的资料不可靠,那么,它肯定不能有效地说明所研究的对象。信度高,效度未必高(效度可能低)。例如,即使精确可靠地测出一个人的经济收入,也未必能说明他的消费水平。效度低,信度有可能高。例如,一项研究虽然未能有效地说明社会流动的主要原因,但它有可能精确可靠地调查出各个时期各种类型的人的流动数量。效度高,信度必然高。如果有效地说明了某种现象,那么它的资料和结论都必然是可信的(见表4-6)。

表4-6 信度和效度的关系

从表4-6可以看出,测量的信度是效度的必要条件,但不是充分条件,无信度必然无效度。反之,效度是信度的充分条件,但不是必要条件,有效度必然会有信度,无效度未必无信度。信度和效度的高与低只是个相对的概念,在测量抽象复杂的概念时,有时二者甚至出现冲突,效度上升时,信度可能下降,而信度上升时,效度可能下降。如学生自尊心的测量可采用两种方法,一是仔细与每个同学交谈。效度较高,但可靠性较低。二是发问卷,用问题测量自尊心的高低。可靠性高,但效度较低。此时,就要根据研究的目的与方案做出取舍了。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈