概念与应用

时间：2024-06-29 百科知识版权反馈

【摘要】：文章接下来介绍锚定场景法的基本过程、前提基础和计算原理，然后用腐败感知为例详细说明结果的解读与注意事项。锚定场景法的基本观点是使用调查中的例子本身来估计每一个人的独特的DIF，然后更正它。

孙宗锋朱琳　孟天广[1]

摘要：社会科学调查中经常面临因研究问题定义不同进而导致个体间乃至汇总的总体间不具有可比较性的情形，本文以腐败感知为例，介绍锚定场景法在更正DIF中的作用，指出在主观调查中该方法使用的必要性。研究发现，锚定场景法前后，腐败感知存在着明显不同，尽管参数法的发现不理想，但是其对其他变量的系数估计也起到了修正作用。

关键词：锚定场景法；腐败感知；主观调查

一、背景

在社会调查中，研究者经常要处理主观评价类的研究问题。例如，政府公共服务满意度、公众幸福感、政治信任度、政治效能感和政府腐败感知水平等议题。对该类研究问题，研究者们通常会采取直接询问受访者的办法获取相关信息[2]，或将一个研究问题细分为若干个二级指标进行测量，以期望兼顾多个维度。在此基础上，经过一定的加权汇总形成更高层面的主观评价指数，如地级市政府满意度指数、省级政府满意度指数，进而开展跨地区间的比较。

然而，无论采取直接询问的办法还是采取二级指标的间接办法，都无法回避一个关键性的问题：即每个个体由于历史或文化等的原因对核心的主观概念界定是不同的，在这种情况下的汇总指数比较是不准确的，甚至是错误的。比如通常调查问卷会在一般意义上询问受访者，“您认为今年的省级政府公共服务满意度处于何种水平？”受访者会从“非常不满意”“不满意”“一般”“满意”“非常满意”给出答案。即便如此，受访者1给出的“不满意”和受访者2给出的“满意”可能不具有一般程度的比较意义，因为一方面受访者对“满意度”的理解不同，另一方面，受访者所理解的“满意度”未必就是研究者所指向的“满意度”。在此基础上形成的汇总指数则更可能出现调查结果与实际情形相距甚远的结果。同样的情况适合其他概念，如幸福感、政府信任度、政治效能感等概念。上述问题的出现也就是King，Murray，Salomon， and T and on （2004）所提出的，在用抽样调查进行测量时长期存在的两大问题：一是如何测量那些只有通过例子才能表达清楚的概念，二是相同的问题，不同的人理解存在巨大差异。

对于该类问题，调查方法领域出现了一些新的研究进展，在方法和技术上均取得了长足的进步。锚定场景法（Anchoring Vignettes）通过设置情景的方法提供了一种有效的算法，使得所有个体放在相同标准之下进行比较，矫正个体间的不可比较性，已有的研究（Hopkins and King，2010a，2010b；Salomon，T and on and Murray，2004）表明，这种方法可以有效解决差异化题项功能的问题（Differentiate Item Functioning，DIF）也即是个体间不可比较性（incomparability）的问题。

文章接下来介绍锚定场景法的基本过程、前提基础和计算原理，然后用腐败感知为例详细说明结果的解读与注意事项。

二、概念

锚定场景法被频繁地应用于政治科学领域，目的是改善在自评问卷中对态度和偏好评估的可比较性（King and W and ，2007）。该种方法试图通过呈现假想的人（或场景）来评估响应类型（Response style）（Kristensena and Johansson，2008），这些假想的人在代表的特点中存在系统性的差异。受访者被要求对场景中的人进行排序，类似受访者的自我描述，要求采用相同的回应形式和排序量纲。锚定场景法的基本观点是使用调查中的例子本身来估计每一个人的独特的DIF（Differentiate Item Functioning），然后更正它。对于问卷调查中的自我测评问题和几个假设的人（用场景写好）的评估的问题，需要以相同的语言进行阐述。到目前为止，锚定场景法已在政治学与政府管理、公共卫生等诸多领域得到广泛应用，效果显著[3]。

如腐败感知，我们设计了如下四个场景：

【提示：如果遇到男性受访者，则读“李强”；如果遇到女性受访者，则读“李娟”。】

V1假设有一个人叫李强/李娟。他/她去民政局申请低保。按照规定提交申请材料后，不知道什么原因，申请一直没有消息。李强/李娟请民政局干部方科长吃饭，请方科长帮忙过问。方科长跟负责办理的同事打了招呼，李强/李娟的申请很快获得通过。请问方科长行为的腐败程度怎么样？

1非常腐败 2比较腐败 4不太腐败 5非常不腐败 98拒答 99不了解 3一般

【提示：如果遇到男性受访者，则读“李强”；如果遇到女性受访者，则读“李娟”。】

V2假设还是刚才这件事，方科长收了李强/李娟塞给他的两千元好处费，事后方科长帮忙通过了李强/李娟的低保申请。请问方科长行为的腐败程度怎么样？

1非常腐败 2比较腐败 4不太腐败 5非常不腐败 98拒答 99不了解 3一般

【提示：如果遇到男性受访者，则读“王军”；如果遇到女性受访者，则读“王霞”。】

V3假设有一个人叫王军/王霞。他/她去工商局办理营业执照。按照规定提交了申请材料后，不知道什么原因，申请一直没有批准。王军/王霞请工商局干部李科长吃饭，请李科长帮忙过问。李科长跟负责办理的同事打了招呼，工商局很快批准了王军/王霞的申请。请问李科长行为的腐败程度怎么样？

1非常腐败 2比较腐败 4不太腐败 5非常不腐败 98拒答 99不了解 3一般

【提示：如果遇到男性受访者，则读“王军”；如果遇到女性受访者，则读“王霞”。】

V4假设还是刚才这件事，李科长收了王军/王霞塞给他的两千元好处费，事后李科长帮忙通过了王军/王霞的营业执照申请。请问李科长行为的腐败程度怎么样？

1非常腐败 2比较腐败 4不太腐败 5非常不腐败 98拒答 99不了解 3一般

而对于自我测评的问题，我们询问受访者“总体来说，您认为目前市/地区/盟党政机关的腐败程度如何？”①非常腐败；②比较腐败；③一般；④不太腐败；⑤非常不腐败；（98）拒答；（99）不了解。对于该问题的回答是一般调查所采用的办法，即直接询问受访者对地方政府（地级市）腐败水平的看法，也是测量腐败感知水平的通行做法。

至于在问卷中是先问自测的问题，还是先问锚定场景的问题，King et al. （2004）主张先问自我测评的问题（即直接测量的腐败感知问题），然后以随机的顺序问锚定场景的问题。并且如果可行，为了匹配受访者的文化和性别，我们需要改变每一个人（场景）的名字。

（一）测量假设

锚定片段法要求两个核心的假设：第一个，回应一致性：受访者在回答问题时，假定其对锚定场景问题的回答方式和对自测问题的回答方式是相同的。受访者可能在他们回答问题时存在着DIF的问题，但是，这种DIF必须几乎对每一个受访者在自测问题和锚定场景问题上相同。也就是说，不同受访者的DIF可以不同，对于同一个受访者在不同的调查问题上也可以不同，但是对于一个调查问题，自测题目和锚定场景题目的DIF类型必须一致。

第二，场景均等性。任何一个场景的变量水平被所有的受访者以相同的方式和单一的量纲进行感知，除了随机误差以外。换言之，受访者可能在如何感知每一个场景所描绘的变量上不同，但是任何的不同必须是随机的并且独立于被测量的特点。

自我评估的问题存在的毛病是对它们的回答在真实水平和DIF（还有随机测量误差）两个方面受访者之间存在差异。相比而言，对于场景的回答受访者之间的差异仅仅是因为DIF（和随机测量误差）。因为场景中的腐败感知对所有的受访者都是相同的，所以我们能够使用对场景回答的不同来估计DIF。然后再通过将DIF从自测问题中减掉的办法估计理想的不受DIF影响的测量。所以，场景需要以清晰、明确和简洁的语言来表达，要实现描述的场景让受访者感觉就是它自己的效果。如此，受访者就更容易以与自测相同的方式使用场景的响应种类。

（二）计算原理

锚定场景法有两种具体的操作方法：非参数法和参数法。下面一一进行论述。

1.非参数法

这种方法使用起来非常简单，但是它有两个方面的缺陷：首先，它要求所有的场景问题和自测问题都需要问及所有的受访者。第二，与所有非参数方法一样，在一些情况下，会出现统计上无效的可能，意味着按照前面提到的假设，一些信息可能会被浪费掉。后面将要描述的参数法就可以避免这些问题。

图1 比较参照

如图1所示，我们展示了两个受访者的腐败感知水平如左侧和中间两列所示。在DIF没有被更正前，self1的腐败感知水平要高于self2（如图中间所示），然而，在更正了DIF后，即采用了锚定场景后，实际上self2的腐败感知水平要高于self1（如图右侧所示）。

非参数法的基本观点就是按照场景对分类的自我测量变量进行重新编码。假定所有的受访者以相同的方式对场景[4]进行排序。那么，对于图1，如果自测的腐败感知水平低于场景1（vig1），那么令其取值为1，如果自测值等于场景1（vig1），那么取值为2，如果在场景1和场景2之间，就取值为3，如果等于场景2，就取值为4，如果在场景2和3之间就取值为5，等于场景3就取值6，在场景3和场景4之间，就取值为7，如果取值等于场景4，就取值为8，大于4就取值为9。该方法假定回应的一致性和场景的均等性，无需其他的假设或模型需要做出。该种思路可以用以下方式进行定义：

让yi代表i的分类调查自我测评，Zij代表受访者i在场景j的分类调查回应。那么，对相同顺序排序的受访者在所有场景（Zij－1<Zij），更改DIF的变量为：

对场景问题的回答出现“打结”的受访者，我们将其设定为一组值而不是一个值。顺序的排序不一致性被分组并且被看作“结”。对这些“结”的处理是问题的关键。对此需要做进一步假设才能做后续的分析。具体如下：

表1 编码规则

说明：这是两个场景、一个自测题目的例子。这张表给出了所有可能的组合（两个场景（z1，z2，默认z1<z2）、一个自测（y））。

表1中给出的13个例子是两个场景和一个自测题目可能出现的所有结果。例子1～5由两个场景正确排序，没有“打结”，那么C是一个标量（Scalar）。场景的回应在例子6～8上是“打结的”，因为场景没有区分度，当自测题目与其相等时，就会产生删截值。而例子9～13则为受访者不能正确地排序场景。这里对“打结（例子6～8）”和“不一致（例子9～13）”做出了区分。

对于那些“打结”“不一致”应该如何处理？King给出了四种办法：

第一种直接删掉那些区间值（intervals）（“打结”和“不一致”），做标量值的直方图。这种办法浪费信息，当然，它也可能导致选择偏差。第二种方法区间内均衡分配，但是这种做法的前提值得进一步推敲，不能想当然。如果假设错误，那么会使得结果变成单一的密度分布（一个肥的直方图）并且会去掉了真实的频率分布。

第三种方法同时使用变量C的向量和变量值。首先，用经典的Orderd Probit模型进行回归，然后一般化。首先，把Yi（i取值为1－n）看作时一个连续的不可观测的因变量Xi看作是解释变量向量（不含常数项），如果此举的目的在于预测而非在于求因果关系，也就是出于做直方图的目的是可以的，只要和因变量相关的变量都可以放入模型中的。可以把Yi看作是条件正态的，均值为Xiβ，方差为1，如果是可以观测的，那么最大似然估计是系数计算的方法。

第四种方法最小信息量法（Minimum entropy）。该方法考虑两种边际的案例情形：提供做多和最少单一可能直方图的方法，也就是最大信息量和最小信息量。

1）锚定场景个数的确定

本研究设计提供了四个场景，在实际计算中，四个场景是否都需要，可以用每个场景所能够增加的信息量多少来决定[5]。换言之，平均信息量的多少。如图2所示，横轴代表最小信息量，而纵轴代表估计的信息量，由图可知四个锚定的场景都能增加所估计的信息量，故此四个场景均可采用。

图2 锚定个数确定

2）场景的排序

在定义C上，需要对场景进行事前排序。一般来说，顺序是由研究者自己选定的，但是有时候也可能是由受访者给出的共识的顺序来决定，只要保证一个顺序对所有的受访者适用即可。本文以四个腐败感知的场景为例。

图3 “打结”和“不一致”的频率前10

四种方法计算结果分布如图4所示。

图4 四种计算方法腐败感知分布结果

2.参数法

作为对非参数方法的补充，King et al.（2004）等开发了参数统计方法。该方法通过对来自相同自测总体的部分随机的样本询问场景而实现资源节约。研究者可以在前测的调查中包含场景，而在正式调查中，可以增加一个题项，由四个场景构成，每个场景询问四分之一的受访者。简而言之，该方法让每个个体拥有一个门槛，并且是解释变量的函数。接下来，以年龄为例，说明基本算法。询问年龄上，让受访者回答他们自己感觉自己处于什么年龄段：①老年，②中年，③青年，④儿童。

图5 年龄分类

说明：τ值是各种类划分的门槛值

平均来说，受访者能正确地感受真实的水平但有噪音（等于真实水平加上随机测量误差），但是当他把感受到的值变成对调查问题的答案时，不同的人使用不同的门槛值。因此，真实的值是不可观测的，但是可以比较。感受到的值是由于随机误差只有平均值可以比较，在任何情况下都不可观测的。原始调查的回应是可观察的，但是他们不可比较。

图6 参数模型[6]

如图6所示，参数模型由两部分组成：场景部分和自测部分。场景是感知的，并且可以报告出来，但是不是真实水平，因受访者而异。因此，在进行模型估计时需要同时估计场景部分和自测部分。

三、腐败感知为例（比较梅州和中山两市腐败感知水平）

2016年中山大学廉政与治理研究中心采用电话调查的方式对全广东省进行了2015年度的公众清廉感知调查。调查以地级市为抽样单位，共执行了7446个样本，其中场景1执行了6400个样本，其余的三个场景各自执行3400个左右。为例说明锚定法的必要性，本文以中山市和梅州市政府腐败感知水平的比较为例。

梅州是全世界最有代表性的客家民系发源地与聚居地，被称为客家人的大本营。梅州市是历史上客家民系的最终形成地、聚居地和繁衍地，更是全世界客家人的祖籍地和精神家园，在第十二届世界客属恳亲大会上，梅州被尊为“世界客都”[7]。因此，总体来说，中山市地区文化集中度比较强，共享类似的传统文化观念，因此我们认为其对腐败概念的认知也在总体上具有相似性。

2012年底，中山市的常住总人口已达312万人，其中户籍人口140.82万人，人口密度为1352人/平方公里[8]。此外，祖籍中山的海外华侨和移居香港、澳门、台湾三地的移民共有80多万人，分布在87个国家和地区，中山也因此被称为“侨乡”[9]。中山市位于珠江三角洲地区，相对较为发达，代表经济发展水平较高的地区人们对腐败的认知水平。因此，从某种意义上说，两者间的腐败感知比较更具代表性。

首先是非参数法。基于已有的锚定场景，我们对自测腐败感知分布（未锚定）和使用锚定法之后的分布分别做直方图，如图7所示。

图7 锚定前后（梅州和中山为例）

注释：黑色条形图是中山，灰色是肇庆。1代表地级市政府非常不腐败，5代表地级市政府非常腐败。

如图所示，在使用锚定法之前，中山市公众认为中山市政府的腐败程度略高（或等于）梅州市政府腐败感知水平。然而，在使用了锚定法克服了DIF之后，中山的腐败程度则显著高于梅州市的，从7到9中，每一组占比都更高。

除了使用非参数法比较两者间的差异之外，我们也可以使用参数法。将变量年龄、受教育水平、党派属性、居住地以及民族属性作为主要解释变量，为比较中山和梅州的差异，我们将梅州作为参照组，构建了虚拟变量放入回归模型中，首先采用ordered probit model对中山和梅州直接的差异进行建模比较，看是否存在显著不同（非锚定法）。具体结果如表2所示。

表2 ordered probit model regression

注释：*p<0.1；**p<0.05；***p<0.01，括号内为st and ard error.

如上述表所示，与梅州市相比，中山市的腐败感知水平要高，但是并未通过显著性检验。换言之，在未进行锚定之前，两者直接的差异仅仅是由抽样误差导致的，并不存在与总体之中。因此，我们使用锚定法，对二者的差异进行再次比较，具体结果如表3所示。

表3 CHOPIT[10]model

（续表）

Number of cases that contribute at least partially to likelihoods：a）in self-responses：611；b）in vign-responses：650.-Log-likelihood of CHOPIT：2958.862

如表3所示，尽管使用了参数法，中山市和梅州市两地的政府腐败感知依然差异不显著，而且系数非常小。其中可能的原因有抽样误差、样本量过小以及其他的问题。但是，相比较而言，其他变量如受教育水平对腐败感知的影响、居住地对腐败感知的影响系数均发生了明显变化。

四、结论与讨论

由主观调查汇总而来的指数进行跨地区间的比较自产生之初就备受争议，焦点在于每个受访者对概念的定义不同。如腐败感知，同样的一个行为，比如请官员吃饭、给医生红包，在有些国家可能习以为常，而在有些国家则坚决不被允许。此种情况下，进行腐败感知跨国间的比较是否值得信赖，是受到质疑的（Johnston，2002）。

通过设计具有普遍可理解的场景，让受访者在相同场景的境遇下回答问题，更正DIF，进而让个体间、不同层次间的指标进行比较成为可能。本文以腐败感知在中山和梅州两地的比较为例，发现使用锚定场景法和不使用锚定场景法结论存在区别。然而，其中的参数法在变量间关系的参数估计上作用明显。

需要指出的是，并不是每次使用锚定场景法都能得到预期的效果，有诸多因素需要予以考虑。比如，研究设计是否合理、场景的选取是否具有普遍意义上的可接受度等。

参考文献

Hopkins，DJ， and GKing.2010a.Improvinganchoringvignettesdesigning surveys to correct interpersonal incomparability.Public opinion quarterly 74：201-222.

Hopkins，DJ， and G King.2010b.A method of automated nonparametric content analysis for social science.American Journal of Political Science 54（1）：229-247.

Johnston，M.2002.Measuring the New Corruption Rankings：Implications for Analysis and Re for m.In A.J.Heidenheimer（Ed.）.Political Corruption，Transaction.New Brunswick.

King，G，CJMurray，JASalomon，etal.2004.Enhancing the validity and cross-culturalcomparability of measurementinsurveyresearch.American Political Science Review98（01）：191-207.

King，G， and JW and .2007.Comparingincomparablesurveyresponses：Evaluating and selectinganchoringvignettes.Politicalanalysis15（1）：46-66.

Kristensena，N， and EJohansson.2008.Newevidenceoncross-country differencesinjobsatisfactionusinganchoringvignettes.Labour Economics15（1）：96-117.

Salomon，JA，AT and o and CJMurray.2004.Comparability of selfrated health：crosssectionalmulti-countrysurveyusinganchoringvignettes. Bmj328（7434）：258.

[1] 孙宗锋，山东大学政治学与公共管理学院行政管理系助理研究员；朱琳，中山大学政治与公共事务管理学院政治学系讲师；孟天广，清华大学政治学系副教授。

[2] 参见：亚洲风向标调查（Asian Barometer Survey，简称“ABS”）和香港廉政公署（Independent Commission Against Corruption，简称“ICAC”）的民意调查。

[3] 使用例子：https：//gking.harvard.edu/vign/eg

[4] 场景的排序通常来说是由研究者给出的，但是也有可能是由受访者给出的，只要保证对所有的受访者使用一个顺序即可。研究者给出的顺序和受访者的共识的顺序之间的差异可能对于针对调查工作的问题非常有意义，尤其是当在不同的语言中翻译调查问题的时候。

[5] 当然，king指出，场景多少的选择实际上是偏误减少和调查成本的博弈。想减少更多的偏误，就要增加更多的场景，而就意味着更高的调查成本。

[6] 对此的详细解释见（King et al.，2004）

[7] 中国客家博物馆落户梅州揭客家文化神秘面纱，中新网

[8] 《中山市2005年全国1%人口抽样调查主要数据公报互联网档案馆的存档》，存档日期2007-09-28。中山统计信息网，2006年3月27日。

[9] 崔国潮：《发展·进步·和谐》，《香山文化：历史投影与现实影像》，广东人民出版社，2006年6月版，第297页。