匹配与社会科学因果推论*

时间：2024-06-29 百科知识版权反馈

【摘要】：比较案例分析和大样本统计是“反事实”原理在社会科学研究中的近似应用。在这三个层次中，揭示社会现象之间的相关关系和因果关系是社会科学研究的核心任务。依据“反事实”原理，社会科学家发展了三种基本的因果推论技术：实验法、使用大样本分析的观察法和案例分析的观察法。服用新药的实验组称为“事实”，服用安慰剂的对照组称为“反事实”。

蒋建忠[2]

摘要：社会科学研究的主要任务是从纷繁复杂的现象中发现事物之间普遍性的因果关联，“反事实”框架是揭示因果关系的主要路径。比较案例分析和大样本统计是“反事实”原理在社会科学研究中的近似应用。上述两类方法存在着遗漏变量、推论偏差等问题，因此需要依据“反事实”原理发展新的因果推论技术。个案匹配和倾向值匹配分别从时间和截面维度阐述了构造事实与“反事实”的原理与路径，从而达到控制干扰变量、提升因果推论精确度的目的。当然，“反事实”框架也存在局限性，但它是进行因果探索必须坚持的理念。

关键词：因果推论；反事实；个案匹配；倾向值匹配

一、引言

社会科学研究主要有三个层次：一是系统地了解社会现象的状况及发展过程，回答社会现象“是什么”的问题；二是说明现象发生的原因，揭示各种现象之间的相关关系或因果关系，解答“为什么”的问题；三是在描述和解释的基础上，进一步推测社会现象的发展趋势（张桂琳，2008）。在这三个层次中，揭示社会现象之间的相关关系和因果关系是社会科学研究的核心任务。通过挖掘现象或变量之间关系实现因果推论，我们就可以回答社会现象“为什么”发生，并在此基础上进行预测，为政策制定提供指导方案。

因果推论具有一套严密的理论基础。过去的十几年中，科技哲学领域内被反复使用的一个因果推论框架是“反事实”原理（Morgan and Winship， 2007；Rubin，1997）。依据“反事实”原理，社会科学家发展了三种基本的因果推论技术：实验法、使用大样本分析的观察法和案例分析的观察法（Evera， 2012：48）。随机实验是帮助研究者建立“反事实”框架的有效模式。但不幸的是，有别于自然科学，由于实际操作困难和伦理障碍的存在，实验并不是获取社会科学研究数据的主要手段（Rosenbaum，2002：73）。[3]社会科学主要是通过调查、搜集资料等观测性研究进行因果推论，由此发展出大样本统计和比较案例分析因果推论方法。这两种方法试图通过对干扰变量的控制近似达到“反事实”标准进而实现因果推论。然而，比较案例分析和大样本统计在因果推论中存在着遗漏变量、推论偏差等问题（King，Keohane and Verba， 2014）。如何得到变量间因果关系的“净效应”，探索严谨且符合科学标准的因果推论方法是本文尝试回答的问题。具体而言，本文的分析框架如下：首先对因果推理的基本原理——“反事实”框架进行讨论，据此指出比较案例分析和大样本统计在因果推论中存在的缺陷；其次，依据案例性质与类型，重点阐述符合“反事实”原理的两种因果推论技术：个案匹配和倾向值匹配；最后，讨论了“反事实”框架在因果推论中的优势及未来发展方向。

二、“反事实”原理与社会科学因果推论方法介评

（一）因果推论的“反事实”原理

“反事实”框架是科学哲学家大卫·刘易斯（David Lewis）等人提出的推断因果关系的标准（Salmon，1994，1997）。[4]事实是指在某个特定变量（A）的影响下可观测到的某种状态或结果（B）。“反事实”是指在该特定变量（A）取负向值时可观测到的状态或结果（B'）。条件变量对于结果变量的因果性就是A成立时B的状态与A取负向值时B的“反事实”状态（B'）之间的差异。B与B'之间的差异可认为是由条件变量A导致的。如果这种差异存在且在统计上是显著的，则说明条件变量对结果变量有显性效应，存在因果关系。举例来说，为了考察在转型时议会制还是总统制有利于国家的稳定，一个理想的研究设计是建立一个议会制国家并在接下来的时间内定期衡量政体的稳定性。与此同时，在同一国家的同一个时期再选择总统制，也用同样的方法在同期内衡量它的稳定性。通过总统制下稳定性和议会制下稳定性的差异对比来判断制度选择与国家稳定之间的因果关系。当然，该类研究设计在现实中是无法实现的，但蕴含的逻辑即为“反事实”原理。

随机实验是帮助研究者建立“反事实”框架的有效模式。设定两个组，把实验对象随机分入两个组中，其中一个组施加刺激，另一组不施加刺激，施加的刺激可以看成是考察的条件变量。然后把两个组进行比较，它们之间的结果差异都可以归功于这种刺激（Lijphart，1971）。这样，在实验组和控制组之间就形成了“事实”与“反事实”，它们之间的差异就是因果效应。例如，为了测试新药A是否对疾病B具有疗效，其中新药A可理解为自变量，疾病B为因变量，“具有疗效”可理解为他们之间的因果关系。检验上述因果关系的典型方法是将一群患有疾病B的病员随机地分为两组，一组接受新药A的治疗，另一组不接受任何药物或仅使用安慰剂。服用新药的实验组称为“事实”，服用安慰剂的对照组称为“反事实”。如果服用新药的病员身体康复了，而服用安慰剂的没有康复，我们可以断定在自变量（服用新药A）和因变量（疾病B）之间存在因果关系。为什么随机实验能够满足“反事实”框架的要求？本质在于实验中的被试对象是随机地被分到实验组和对照组，其他可能的干扰变量在随机化的过程中都被“均等”地分到了两组中，保证了我们关心的“事实”案例和那些相对应的“反事实”案例之间在关心的条件变量之外的干扰变量上取值是相同或近似的，从而构建起了“事实”和“反事实”。此时实验组和对照组在结果上的差异就只能用刺激和随机误差这个因素来解释。当样本大到可以保证统计检定力时，随机误差的可能性大大降低了（胡安宁，2015：11）。实验性研究通过随机化过程对个案有着比较明确的控制力，它能有效地建立起“事实”与“反事实”进行两者的匹配与对照，进而按照“反事实”的框架进行因果推论。

（二）社会科学因果推论方法

根据“反事实”原理，研究者需要在同一时刻观察同一对象在条件变量取不同数值作用下的反应结果。显然，“历史的不可回溯性”决定了无法实现上述研究设想。同时，对于绝大多数社会科学而言，对社会现象背后规律的探究只能在“观测性”而非“实验设计”或“准实验设计”的基础上进行，实验法是无法施行的（吉宓，2007）。因此，在社会科学研究中一个可行的替代方案是寻找两个（或多个）案例，这两个（或多个）案例除了在关键的条件变量上取值存在差异外，其他方面都尽量相似，从而近似地形成了“事实”与“反事实”的匹配，达到因果推论的目的。由此产生了社会科学因果推论的两种主要方法：比较案例分析和大样本统计分析。

最经典的比较案例分析是密尔（John Stuart Mill）提出的四种建立变量间普遍性关系的“法则”：求同法、求异法、求同求异法和共变法（Smelser，1976；Lieberson，1971；Sartor，1970）。[5]求同求异法是求同法和求异法的混合，在原理上三者具有相似性。共变法更像一种定量的归纳推理方法，在小样本分析中往往很难操作（De Felice，1986）。因此，密尔法主要是求同法和求异法。求同法力图找到两个（或多个）几乎完全不同的案例：这些案例在关注的条件变量X与结果变量Y上表现一致，在其他可能的干扰变量上完全不同（Faure，1994；De Felice，1986）。[6]求异法是建立在总体相似性的基础上观察关键差异性，力图找到这样一些案例：这些案例在其他干扰变量上都保持一致，仅仅在关注条件变量X和结果变量Y上出现差异（Skocpol and Somers，1980）。

在实际应用中，密尔法对匹配案例的要求比较苛刻，它要求除关键条件变量外其他干扰性的条件变量取值都是相同的。1970年，亚当·普沃斯基（Adam Przeworski）和亨利·图纳（Henry Teune）在求同和求异法的基础上提出了“最具相似性系统”和“最具差异性系统”的比较案例分析设计，通过放宽条件大大增加了其在社会科学中的应用性（Przeworski and Teune，1970：3135）。最具相似性系统设计来自于求同法，力图在相似的案例中发现它们的重要差异点，并用这些差异来解释所观察到的结果（Katzenstein，1985）。最具差异性系统演化自求异法，它对“事实”和“反事实”的要求没有求异法那样严格，只需要匹配的案例具有较大的差异性即可（King，Keohane and Verba，2014：195）。

密尔法、最具相似（差异）性系统通过两个（或多个）单独案例构成“事实”与“反事实”的匹配来实现社会现象的单因解释，它具有确定性与逻辑之美，同时也导致了因果关系简约化问题。针对这一问题，拉金（Charles C.Ragin）提出了质性比较分析方法试图实现因果关系的多因解释（Ragin，2008，2014；Caramani：2012；何俊志，2013；刘丰，2015）。在质性比较分析中，“事实”与“反事实”分别是包含多个案例的“案例组”，条件变量不再是单独的关键变量，而是通过布尔代数中“且”“或”“非”等联接符形成的“条件变量组合”，从而有效地实现了社会现象的多变量分析和联合分析（Bollen，Entwisle and Alderson，1993；Collier，1991）。[7]

大样本统计分析把社会系统视为服从一定概率分布的随机过程，由于受到诸多不可控制的偶然因素的干扰，统计分析的任务就是通过计量方法来尽量“控制住”各种偶然因素，以便在概率论的基础上检验实际数据是否体现了一般性的社会规律（李子奈、齐书良，2010）。因此，大样本统计是根据先验的或已有的理论，设定总体回归模型，按照随机抽样理论抽取样本观测值，采用适当方法估计模型参数，并进行严格的检验，得到样本回归函数（Gujarati， 2003：23）。样本回归函数中的条件变量是预先假定对结果有影响的因素，其他不可控制的干扰变量都被纳入了随机变量中。根据干扰变量对结果影响的“正负”方向，样本被自动分成“事实”和“反事实”组，不可控制的随机干扰变量互相抵消，从而在样本回归函数中体现了条件变量对结果变量的影响。

（三）社会科学因果推论方法的缺陷

在社会科学因果推论方法中，比较案例分析被认为是比较弱的。罗伯特·殷（Robert K.Yin）指出：对案例方法存在传统偏见并且“鄙视”，而这种鄙视的倾向在社会科学方法论教材中表现是忽略或放弃介绍案例研究方法（Yin，1994）。兰迪·施特克尔（R and y Stoecker）甚至指出“案例研究比新闻工作好不到哪里去”（Stoecker，1991；Hamel，Dufour and Fortin，1993：18 28）。大样本统计分析次佳，研究者既可以利用部分相关来控制某些被忽略变量的影响，也可以通过对许多案例的随机性考察来减少其他被忽略变量的影响（Evera，2012：51）。比较案例分析和大样本统计是社会科学在观测性数据条件下依据“反事实”原理近似进行的因果推论，根本的缺陷在于研究者不能够控制被研究对象对于条件变量特定水平的接受或拒绝而产生遗漏变量偏差，进而难以判断发现的因果效应是确定的，还是由于某个（些）被忽略的变量所导致的。具体来说，主要包含以下两个因素：

一是变量选择误差。根据“反事实”原理，进行因果推论时首先要求研究者预测并识别出所有可能的条件变量，然后选择那些在除关键条件变量外的其他变量上取值不变的案例来控制它们的影响。显然，要识别所有的条件变量并达到研究对象的同质性是非常困难的，它较多依赖于研究者对经验世界的判断。加里·金（Gary King）等人甚至明确指出，案例研究不能解决遗漏变量问题，最多可以估计出偏差的方向，通过了解高估还是低估了真实因果效用，才能判断已有结论是被强化还是弱化了（King，Keohane and Verba， 2014：200）。

同样，进入大样本统计模型的条件变量是研究者根据经验或某种理论选择的，依赖于研究者的意识形态、知识结构等主观意志，这可能导致进入模型的变量不能完全反映实际所要探求的研究对象的情况。同时，在社会科学研究中，存在着类似于意识形态、社会制度、文化等规范性的定类变量，即使采用虚拟变量技术，也很难全部纳入到统计模型中。

二是案例选择误差。比较案例分析往往选择“恰好”能证明因果关系的案例，对那些“反面”案例视而不见，这就没有保证每个案例被选中的概率是相等的。在那些未被关注的案例中，干扰变量可能对结果产生决定性的影响。齐夫·毛兹（Zeev Maoz）在批评案例研究方法时指出：案例研究在很多情况下成了怎么都行的随意研究的代名词，作者感到自己无须阐明如何进行研究，为何选择一个特定案例或一组案例，哪些案例数据被使用了，哪些被省略了，如何处理和分析数据，以及推论是如何从作者呈现的故事中产生的（Maoz， 2002：164-165）。社会科学界也普遍认为，在比较案例分析中，案例的选择是在“无知之幕”下进行的，选择的标准并不明确，选择过程也常常缺乏研究者评估潜在偏差的自觉努力，各种选择偏差被带入案例选择过程的机会因而大大增加了（Leuffen，2007）。

大样本统计从相关的“总体”中随机抽取大量样本，将每个案例视为“同质单元”，案例被分解为变量、分布和关联性，研究的焦点在于对尽可能多的观察单元进行分析（吉宓，2007）。事实上，社会科学主要通过文献调查、实地观察、抽样调查、实验调查等手段获得样本（水延凯、江立华，2014：125 250），但只有抽样调查法才能通过样本来推断总体的信息。利用抽样调查法来获取样本时，核心是保证抽样的随机性，从而确保样本的性质能代表总体的性质，这一要求是通过参数检验来实现的。而且，在许多社会科学中——如国际政治学、行政管理等，研究者从已有的历史资料中得到的观测性数据，受制于可获得性、数量限制等因素，抽取的样本往往不具备随机性。特别是现实社会中一些相对较少的现象（如革命），甚至都达不到满足统计分析的样本数量要求。

由此可见，无论是比较案例分析还是大样本统计并不能控制所有的干扰变量，它只能挖掘已知的或可能产生影响的关键变量（Lijphart，1971）。尽管近年来发展起来的基于模糊值和清晰值的质性比较分析方法可以考察多个因素及组合对结果的影响，但它也只能分析“无限”多个条件变量中的有限变量，仍然不能消除遗漏变量问题，从而导致因果推论带有“或然性”。因此，需要依据“反事实”原理发展新的因果推论技术。一个基本的设想是在研究者所关注的条件变量作用于案例之前，所有案例的状态是相同的或相似的。当关注的条件变量作用于部分案例后，形成了“事实”；剩下的未受关注条件变量作用的案例形成了“反事实”。如果“事实”与“反事实”存在显著差异，这种差异只可能来自于研究者关注的条件变量，而不是其他的干扰变量。根据案例性质的差异，产生了个案匹配和倾向值匹配两种社会科学因果推论方法。

三、个案匹配与“反事实”因果推论

（一）个案匹配因果推论的基本原理

社会科学研究要实现严密的因果推论需要构建与被观测到个案相对应的“反事实”个案。显然，在现实与历史中几乎不存在“反事实”案例，需要通过综合很多没有经历过条件变量影响的个案，由此构造出来的称为对照个案。对照个案构造的基本设想是通过某种加权方式将诸多没有受到条件变量影响的个案进行综合，使得在条件变量作用之前对照个案与研究者关注的个案具有相同或相似的历时性趋势（Abadie，Diamond and Hainmueller，2012）。该对照个案可以近似地看成关注个案的“反事实”案例，原因在于影响关注个案和对照个案发展趋势的变量有许多，当两者的历时性趋势一致时，意味着影响两者发展趋势的变量在“平均值”上是一致的。当条件变量作用于关注个案后，考察研究者关注的个案与对照个案之间的变化趋势，如果两者存在显著性的差异，它只可能是条件变量作用产生的，从而推断了条件变量与结果变量之间的因果关系。

下面以民主化对贸易开放度的影响为例进行说明。首先，选择A国家作为“事实”，假设该国在Tt时刻实行了民主化改革，罗列出包含Tt时刻的[T0， TT]时间段内该国的贸易开放度，从而形成了贸易开放度变化示意图。[8]其次，选择N个国家组成“个案池”，这些国家的特点是没有经历过民主化改革。按照“反事实”原则，个案池中的任意单个国家都不能成为A国的“反事实”。第三，选择适当的权重，对个案池中的所有案例进行加权处理构造出对照个案，使得对照个案与我们关心个案（A国）的历时性趋势是一致的，即在[T0， Tt]时间段中，A国贸易开放度曲线与对照个案的贸易开放度曲线尽可能地一致。那么，该对照个案可以作为A国的“反事实”，其原因就在于选择的权重使得影响A个案和对照个案的干扰变量都均等化了。第四，比较Tt时刻A国经受民主化改革后的贸易开放度和对照个案的贸易开放度，如果两者之间有显著的差异，说明民主化改革的确对贸易开放度有影响。上述分析思路可以用图1表示出来。

图1 民主化对贸易开放度的影响思路

在图中，通过对个案池中N个个案进行加权处理形成对照个案，使得在Tt时刻前对照个案与关注个案的时间趋势基本相同。在Tt时刻，A国（即关注个案）实行了民主化改革，对照个案没有施行民主化改革，观察Tt后A国与对照个案的发展趋势，如果两者有显著的差别，显然，这种差别只可能是民主化改革造成的，从而挖掘了民主化改革与贸易开放度之间的因果关系。

（二）权重设置方法

利用个案匹配方法进行因果推理的关键在于如何通过适当的加权方式将N个没有受到条件变量影响的个案综合起来形成对照个案，使之成为“反事实”。权重构造的基本设想是：设个案池中每个个案受到的权重影响为：βT=（β1，β2，…βN）[9]，在[T0，Tt]时间段内选择n个时间点，假设在每个时间点上关注个案对应的贸易开放度是F0=[F0，F1，…，Fi，…，Ft]。个案池中任意个案在每个时间点上对应的贸易开放度数值可表示为如下的矩阵形式：

其中，代表个案池中第j个个案在各个时间点上的贸易开放度数值。

所求解的权重β是使关注个案的贸易开放度与构造的对照个案的贸易开放度的差最小，可表示如下的矩阵形式：min（βTF－F0）2。

上式的最优解就是符合要求的权重β。

（三）优势与不足

通过构造对照个案进行因果推论最大的优势在于较好地控制了干扰变量，从而能尽可能地显示条件变量对结果变量的影响，揭示两者之间的因果效应。同时，利用对照个案进行“反事实”推论也存在着以下的不足。

一是构造对照个案对数据有较高的质量要求。从对照个案的构造过程可以看出，需要一定数量的未经条件变量影响的案例。根据阿巴迪等人的研究，案例池中案例的数量一般不应低于30个，接近于中等规模大样本统计所需的数据量（Abadie，Diamond and Hainmueller，2012）。为了构建对照案例，研究者还需要了解每个案例的时间序列信息。同时，为更好地排除随机误差的影响，要求[T0，Tt]这一时间段尽可能的长。上述要求容易造成案例数据的缺失。

二是构造对照个案是比较繁琐的工作。权重的计算涉及复杂的多元统计知识，工作量比较大，当前缺乏相应的软件，从而限制了该方法的推广与应用。同时，在求解min（βTF－F0）2时，要求矩阵βTF具有良好的性质。因此，该方法并不一定能够确保得到权重β，这意味着对照个案并不一定能够成功构建，从而导致个案匹配方法的失效。

四、倾向值匹配与“反事实”因果推论

倾向值匹配是从已存的诸多案例中寻找两个案例，它们在关键条件变量作用之前受到所有因素的平均影响都是相同的。当条件变量作用于其中一个案例后，上述两个案例就形成了“事实”与“反事实”。其中，判断两个案例能否进行“事实”与“反事实”匹配的标准就是倾向值。

（一）倾向值匹配原理

通过倾向值匹配的方式来控制和消除遗漏变量是社会科学大样本研究可使用的一种新兴统计工具。倾向值作为因果推论的概念最早出现在1983年罗森鲍姆（Rosenbaum Paul R）和鲁宾（Donald Rubin）合写的一篇名为《倾向值对于观测性研究中因果效果的中心作用》的论文中（Rosenbaum and Rubin，1983）。倾向值是指被研究的个体受到所有干扰变量影响情况下的发生概率。倾向值匹配方法主要是针对具有相同或相似倾向值的两个或多个案例，考察受到条件变量作用及没有受到条件变量作用情况下案例的结果，如果结果的差异是显著的，那么这种差异只能归因于条件变量，而不是其他的干扰变量，从而在条件变量与结果变量之间建立了因果关系。由此可见，倾向值匹配十分巧妙地完成了对干扰变量的控制。

为什么倾向值匹配方法能够进行有效的因果推论呢？原因在于它符合“反事实”逻辑推理框架。举例来说，考察宗教信仰对选举投票的影响，通过统计数据发现基督教徒倾向民主党，不信仰基督教的人员倾向于投共和党的票，那么是否可以断定信仰与投票倾向之间有因果关系呢？显然做出上述判断的逻辑推理是不严密的，原因在于其他潜在的干扰变量都会影响投票倾向。倾向值匹配方法按照信仰差异把所有的样本分成两组，在不同组中选择具有相同或近似“信仰基督教概率”（即倾向值）的案例形成案例匹配对。[10]由于匹配对中的案例具有相同的倾向值，这意味着性别、年龄、工作性质等所有干扰变量对案例的“平均”影响都是相同的。因此，案例匹配对中的案例a（信仰基督教）和案例b（不信仰基督教）就形成了“事实”和“反事实”，投票倾向差异的原因只可能是宗教信仰，从而在宗教信仰与投票倾向之间建立了因果关系。由此可见，倾向值就像一道“阀门”，在倾向值匹配之后，除研究者关注的条件变量外，其他可能的干扰变量对同一匹配对内案例的作用影响是相同或相似的。因此，匹配对中案例间结果的差异只可能是由关注的条件变量所导致，从而完成了变量间的因果推论。

（二）倾向值匹配的操作程序

（1）计算每个抽样个体的倾向值（概率）。信仰基督教是一个二分变量（1=信仰基督教，0=不信仰基督教），受到性别、年龄、工作性质等变量的影响，研究者可以建立一个逻辑斯蒂回归或Probit回归模型来计算每个个体信仰基督教的概率：

log（信仰基督教的概率/1－信仰基督教的概率）=βX+ε

或Probit（信仰基督教的概率）=βX+ε[11]

（2）依据倾向值（概率）对个体进行匹配，形成匹配对。首先，把所有案例按信仰差异分成两组；其次，在信仰基督教的群体中抽取个体（假设倾向值为c），然后从不信仰基督教的群体中找到倾向值与c最为接近的那个个体与之匹配；第三，通过上述方法依次对所有个体进行匹配，得到依据倾向值为标准划分的多个匹配对（Harding，2002；Leuven and Sianesi，2017）。[12]例如，在上例中假定第m个样本信仰基督教，由逻辑斯蒂或Probit模型计算该样本信仰基督教的概率（设为0.6）。假定第n个样本不信仰基督教，同时也可计算出该样本信仰基督教的概率（设定为0.6），则第m个样本和第n个样本就形成了一个匹配对。[13]根据倾向值历遍所有的样本后就形成了多个匹配对。

（3）根据具有相同或相似倾向值的匹配对来分析信仰基督教和不信仰基督教的个体在投票选择上的差异，如果这种差异是显著的，则可以说明宗教信仰对选举投票有影响。

（4）敏感性检验。

利用逻辑斯蒂或Probit进行倾向值计算时，可以尽可能把考虑到的条件变量都纳入进去，但还有可能存在遗漏的变量。[14]敏感性检验是指如果没有关注到的变量被我们考察到了，结论是否能够保持不变。如果结论仍是原先的，那么我们便有证据认为结论是稳健的。

在实际操作中，研究者无法通过纳入未考察的变量来进行敏感性检验，原因在于如果已知了未考察的变量，则可以放入逻辑斯蒂或Probit模型中。因此，敏感性检验只能采取间接的方法：希望能够知道一个没有被观测到的干扰变量需要多大程度的变动才能够动摇对倾向值的预测以及基于倾向值而进行的因果推断。根据回归统计方法，可以考虑两个案例i和j，他们的倾向值分别为pi和pj。pi和pj的值可以依据已观测的变量X及没有观测到的变量μ来预测。

pi=αXi+βμi

pj=αXj+βμj

由上述等式可知，即使个体i和j在已观测到变量X上的取值完全一样，但他们的倾向值也会由于未观测到变量μ上取值的差异而不同。

根据罗森鲍姆研究，γ可以作为统计量，通过该统计量可以判断在何种情况下，研究的结论会受到质疑。基本设想是：考察γ值的大小。如果γ等于1，则认为干扰变量对结论没有影响。如果γ=2，说明即使两个个体在“已经考虑到的变量”上取值完全相同，但是案例i的倾向值仍是j的两倍，这是由未被考察到的变量μ决定的。随着γ值的变大，未被考察到的遗漏变量μ变得越来越重要，结论的稳健性就越差。

事实上，如果真的有遗漏变量μ导致γ值变得很大，该遗漏变量应当是显著的，在进行倾向值计算时就应纳入到逻辑斯蒂或Probit模型中。这意味着如果γ值非常大，那么该干扰变量被“遗漏”就是一个小概率事件。因此，在进行敏感性检验时，核心是观察γ值大到什么水平时结论就会变得不显著。如果γ接近于1时结论就不显著了，说明已遗漏了重要的变量。如果γ值要比较大时（如γ=3），这意味着为使结论不显著，这个被遗漏的干扰变量需要使pi值为pj值的3倍，这样的干扰变量被遗漏显然是太“稀罕”了，据此可以断定根据原来模型计算的倾向值和因果推论是稳健的。

（三）倾向值匹配研究趋向

利用倾向值匹配技术，研究者可以在以观测性数据为主的社会科学研究中建立一种类似于随机实验环境的匹配样本，进而利用“反事实”原理进行因果推论，整个过程严谨且符合科学规范。因此，倾向值匹配在整个社会科学中都得到了广泛的应用。当然，倾向值匹配方法还需要进一步的拓展，主要体现在以下两个方面：第一，传统的倾向值匹配方法关注二分变量，但是社会科学研究绝不仅仅只关注只有两个水平的处理变量（胡安宁，2015：91）。在上述的宗教信仰与投票倾向例子中，案例的取值只有“信仰和不信仰基督教”两个层级。但在现实中，研究者需要更细致地分析个体信仰基督教、伊斯兰教、儒教、犹太教等多个类别，由此凸显不同宗教类别对投票倾向的影响。显然，进行多类别、多层次的分析更加符合现实需求，这就需要超越二分变量关注多类别乃至连续型的处理变量，这是倾向值匹配方法发展的趋势。第二，优化倾向值匹配算法。在匹配时，不同案例的倾向值往往不会恰好相等，这就涉及倾向值匹配模式。目前倾向值匹配主要包括邻近匹配、半径匹配、核心匹配和分层匹配4种方式（Rosenbaum，Ross and Silber，2007；郭申阳、弗雷泽，2012）。不同的匹配方法会产生不同的研究结论。因此，在实际研究中需要采用多种匹配方法进行交互验证，当不同的匹配方法得出的结果大致接近时，才能够确定研究的结论站得住脚。近年来，一些新的匹配技术也在不断地发展，如海森（Hansen Ben B.）、格林（Green Samuel）发展的完全匹配方法，保证每个抽样案例都能在匹配过程中被使用到（Hansen，2004）。塞克汗（Sekhon Jasjeet Singh）和米巴恩（Walter R.Mebane）发展的遗传匹配技术，借助人工智能的方法，在匹配的过程中甚至不需要计算具体的倾向值得分（Sekhon and Mebaner，1998）。

五、超越与限度

个案匹配和倾向值匹配本质上是实验法在社会科学中的应用，通过事实（实验组）与反事实（对照组）的对照、匹配达到因果推论的目的。与传统的比较案例分析和大样本统计相比，具有两方面的优势：一是因果推论的准确化。在比较案例分析中，需要人为设定影响结果的可能条件变量，通过案例间的比较获得因果关系。多元回归经常会出现多重共线性问题，从而“自动”删除某些干扰变量，从而导致遗漏变量偏差。在估计倾向值的逻辑斯蒂或Probit回归中，因为关心的是逻辑斯蒂模型的预测能力，共线性对于模型预测能力没有影响，因此可以把尽可能多的影响结果的条件变量纳入其中。在对照个案构建时，通过复杂的权重设置，控制了影响结果发生的所有干扰变量。因此，依据个案匹配和倾向值匹配方法得到的因果关系在更大概率上减少了遗漏变量的可能性。二是因果推论的精确化。比较案例分析通过多个案例的比较，推导条件变量与结果变量之间的因果效应，而多元统计分析甚至只能推断出变量之间的相关关系。个案匹配和倾向值匹配能定量地测算出因果效应：[15]。由此可见，与比较案例分析和大样本统计相比，个案匹配和倾向值匹配更加符合“反事实”原理，通过尽可能控制干扰变量，挖掘了变量之间的“净效应”，在因果推论方面更为准确和精致。因此，符合“反事实”框架的匹配方法不仅是因果推论技术，更是进行因果探索必须坚持的理念，它为社会科学研究打开了新的方法论天地。

然而，世界上不存在完美无缺的方法，个案匹配与倾向值匹配仍然存在很大的发展限度。

第一，根据“反事实”的定义，“反事实”是“不可观测的”，这一问题被称为“因果推论的根本问题”（Holl and ，1986）。同时，定义“反事实”的关键在于改变条件变量的取值时，其他干扰因素必须保持不变。显然，无论是自然科学中的实验法还是匹配方法，实现完全的“反事实”匹配是无法完成的任务，永远都无法确定是否已经穷尽并控制所有可能导致结果的变量（King，Keohane and Verba，2014：200）。正如罗伯特·基欧汉（Robert O.Keohane）指出的，不论研究设计有多么完美，收集到的数据有多么丰富，研究者的洞察力有多么敏锐，也无论研究助理如何勤奋，实验控制得多么精确，人们永远都无法获得一个完全确定的因果推论（King，Keohane and Verba，2014：76）。

第二，案例匹配并不考虑条件变量之间的相互作用而只关注某个条件变量的因果效应，因此，无法实现社会现象的多变量分析和联合分析。个案匹配、倾向值匹配方法是通过两个（或多个）单独案例构成“事实”与“反事实”的匹配来实现社会现象的单因解释。它在运用时包含了如下的假设：一种决定论的解释，而非概率论的解释；存在唯一的单因；不存在相互影响的效果（Lieberson，1991）。因此，它把复杂社会现象的发生归结为某一个最重要的关键性因素，具有逻辑上的简洁之美，能让读者感受到逻辑的清晰。这是古典科学理论在社会科学中的具体表现。[16]1929年德国物理学家海森堡（Wemer Karl Heisenberg）提出测不准原理后，传统的决定论观念被击得粉碎，取而代之的是世界的随机性特征。在社会科学中，表现为对传统因果律的反思。卡尔纳普（Rud of l Carnap）批判了人们习惯的单因解释逻辑，明确指出：不能挑选任何一个单个原因作为唯一原因，根本没有唯一原因这个东西（Carnap， 2007：186）。拉金也指出：社会现象之所以复杂并难以解释，不仅是因为有太多影响社会现象发生的变量，而且是因为不同的与原因相关的条件共同结合并以某一方式产生一个特定的结果（Ragin，2014）。因此，匹配方法与传统研究方法是互相补充而不是取代的关系。

参考文献

Abadie，A，ADiamond and JHainmueller.2010.Syn the tic Control Methods for Comparative Case Studies：Estimating the Effect of Cali for nia's Tobacco Control Program.Journal of the American Statistical Association105（490）：493-505.

Bollen，K，BEntwisle and AAlderson.1993.Macrocomparative Research Methods.Annual Review of Sociology19（19）：321-351.

Collier，D.1991.The Comparative Method：Two Decades of Change.In D Rustow and .K.Ericksoneds，Comparative Political Dynamics：Global Research Perspectives.New York：Harper Collins.

De Felice，G.1986.Causal Inference and Comparative Methods. Comparative Political Studies19（3）：415-437.

Faure，A.1994.Some Methodological Problemsin Comparative Politics. Journal of Theoretical Politics6（3）：307-322.

Gujarati，D.2003.Basic Econometrics，4th Edition.NY：Mc Graw-Hill.

Hamel，J，SDufour and DFortin.1993.Case Study Methods，Newbury Park，Calif.：Sage.

Hansen，BB.2004.Full Matchinginan Observational Study of Coaching for the SAT.Journal of the American Statistical Association99（467）：609-618.

Harding，DJ.2003.Counterfactual Models of Neighborhood Effects：The Effect of Neighborhood Povertyon Droppingout and Teenage Pregnancy.American Journal of Sociology109（3）：676-719.

Holl and ，P.1986.Statistics and Causal Inference.Journal of American Statistical Association81：945-960.

Katzenstein，PJ.1985.Small Statesin World Markets：Industrial Policyin Europe.Ithaca：Cornell University Press.

Leuffen，D.2007.Case Selection and Selection Biasin Small-n Research.In TGschwend and FSchimmelfennig，eds.，Research Designin Political Science：Howto Practice What They Preach，New York：Palgrave Macmillan.

Leuven，E and BSianesi.2017.PSmatch2：State Moduleto Per for m Full Mahalanobis and Propensity Score Matching，Common Support Graphing， and Covariate Imbalance Testing.Statistical S of tware Components S432001，Boston College Department of Economics.

Lieberson，S.1971.Comparative Politics and Comparative Method. American Political Science Review65：682-693.

Lieberson，S.1991.Small N's and Big Conclusion：An Examination of the Reasoningin Comparative Studies Basedona Small Nuber of Cases. Social Forces70（2）：307-320.

Lijphart，A.1971.Comparative Politics and the Comparative Method.The American Political Science Review65（3）：682-693.

Maoz，Z.2002.Case Study Methodologyin International Studies：From Storytellingto Hypo the sis Testing.In FHarvey and MBrecher，eds.， Evaluating Methodologyin International Studies：Millennial Reflections on International Studies，Ann Arbor：University of Michigan Press.

Morgan，SL and CWinship.2007.Counterfactuals and Causal Inference：Methods and Principles for Social Research.New York：Cambridge University Press.

Przeworski，A， and HTeune.1970.The Logic of Comparative Social Inquiry. New York：John Wiley.

Ragin，CC.2008.Redesigning Social Inquiry：Fuzzy Sets and Beyond. Chicago：University of Chicago Press

Ragin，CC.2014.The Comparative Method：Movingbeyond Qualitative and Quantitative Strategies.Berkeley and Los Angeles：University of Cali for nia Press.

Rosenbaum，PR.2002.Observational Studies.New York：Springer.

Rosenbaum，PR and DRubin.1983.The Central Role of Propensity Score in Observational Studies of Causal Effects.Biometrika70（1）：41-55.

Rosenbaum，PR，RNRoss and JHSilber.2007.Minimum Distance Matched Samplingwith Fine Balanceinan Observational of Treatment for Ovarian Cancer.Journal of the American Statistical Association102 （477）：75-83.

Rubin，DB.1997.Estimating Causal Effectsfrom Large Data Sets Using Propensity Scores.Annals of Internal Medicine127（8）：757-763.

Salmon，W.1994.Causalitywithout Counterfactuals.Philosophy of Science 61（2）：297-312.

Salmon，W.1997.Causality and Explanation：AReplayto Two Critiques. Philosophy of Science64（3）：461-477.

Sartori，G.1970.Concept Misin for mationin Comparative Politics. American Political Science Review65：1033-1053.

Sekhon，JS and W R Mebaner.1998.Genetic Optimization Using Derivatives：Theory and Applicationto Nonlinear Models.Political Analysis7：189-203.

Skocpol，T and MSomers.1980.The Uses of Comparative Historyin Macro-social Inquiry.Comparative Studiesin Society and History22（2）：174-197.

Smelser，N.1976.Comparative Methodsin the Social History.Englewood Cliffs，NJ：Prentice Hall.

Stoecker，R.2015.Evaluating and Rethinking the Case Study.The Sociological Review39（1）：88-112.

Yin，RK.1994.Case Study Research：Design and Methods，2nd，ed. Thous and Oaks，Calif：Sage.

Caramani，D.基于布尔代数的比较法导论[M].蒋勤，译.上海：格致出版社，上海人民出版社，2012.

Carnap，R.科学哲学导论[M].张华夏，李平，译.北京：中国人民大学出版社，2007.

Evera，SV.政治学研究方法指南[M].陈琪，译.北京：北京大学出版社，2012. King，G，RKeohane，SVerba.社会科学中的研究设计[M].陈硕，译.上海：格致出版社，2014.

郭申阳，弗雷泽.倾向值分析：统计方法与应用[M].重庆：重庆大学出版社，2012.

何俊志.比较政治分析中的模糊集方法[J].社会科学，2013（5）：3038.

胡安宁.社会科学因果推断的理论基础[M].北京：社会科学文献出版社，2015.吉宓.政治学研究中理论与方法的相互界定[J].国际政治研究，2007，44（1）：122-129.

李子奈，齐书良.关于计量经济学模型方法的思考[J].中国社会科学，2010（2）：69-83.

李子奈，潘文卿.计量经济学[M].北京：高等教育出版社，2010.

刘丰.定性比较分析与国际关系研究[J].世界经济与政治，2015（1）：90110.水延凯，江立华.社会调查教程（第六版）[M].北京：中国人民大学出版社，2014.

张桂琳.多重因果路径分析述评[J].政治学研究，2008（5）：9198.

Matching Estimates and Causal Inferencein Social Science

Jiang Jianzhong

Abstract：A main goal in social science is to identify causal effects of complicated social phenomena.Counterfactual thinking is of the main logicsin revealing causal relationships.Comparative case study and statistical analysis are two applications o f counterfactual principle in social science.However， the re are many issues when researchers apply comparative case analysis and statistical models in social science，such as bias inomitting variables and endogeneity.It is necessary to develop new causal inference techniques based on counterfactual principle.Syn the tic control methods（SMC） and propensity score matching method（PSM）are two main research paths based on counterfactual principle that are beneficial in avoiding interference of i rrelevant variables and improving the accuracy of causal inference.

Keywords：causal effects，counterfactual principle，syn the tic control methods，propensity score matching method

[1] 本文是国家社科基金后期资助项目“国际关系实证研究方法”（编号：16FGJ001）的阶段性成果。

[2] 蒋建忠，国防大学政治学院讲师。

[3] 一般来讲，社会科学有两种不同的研究类型：实验性研究和观测性研究，分别对应着三种数据形式：实验性数据、调查性数据和观测性数据。调查性数据是利用抽样方法获得样本，进而利用样本性质来推断总体的性质；观测性数据主要是从历史、档案中获得的数据和资料。数据不同，因果推论的方法也不同。实验性研究中研究者对研究对象有着比较明确的控制力，可以进行随机化的处理，观测性研究无法对研究对象进行有效的控制。

[4] 在当前因果推论的哲学讨论中，“反事实”框架和因果机制是两条最重要的研究进路，双方产生了激烈的争论，都认为自己的推论模式优于对方。“反事实”框架的代表人物是刘易斯，因果机制理论的代表是萨尔蒙。.

[5] 需要说明的是，密尔最初提出了五种方法，即求同、求异、求同求异、共变、剩余法。剩余法只考虑一个案例，所以无法进行案例比较，不在此列。由于密尔法在一般的方法论教材书中都可以找到，本文不再展开说明。

[6] 学界普遍认为求异法更符合“反事实”推论原则。求异法是证明的逻辑，而求同法是证伪的逻辑，特别是安德鲁·费尔认为如果使用求同法去证明观点，需要很多案例，分析特征更接近于统计分析。

[7] 布尔代数本质上是逻辑关系，它基于三个基本陈述符号或联接词。且用符号“·”或“∧”来表示，含义是只有当两者同时发生时，结果才发生。举例来说：A不是革命爆发的条件，B也不是革命爆发的条件，但是一旦这两者同时存在时，革命就爆发了。“或”用符号“+”或“∨”来表示。它的本质含义是当两个或多个条件中只要有一个发生时，结果就发生了。例如，某一政党在选举中失败，那么只需要该政党“贪腐严重”或“竞选策略失当”两个条件中的任何一个条件得到满足，结果就会发生。“非”用“～”表示，它的含义是条件的反面。例如，用A代表革命爆发，那么“～A”表示“革命没有爆发”。通过“且”、“或”、“非”三个联接符，可以形成多种条件组合。.

[8] 0<t<T。

[9] βT表示矩阵β的转置。

[10] 这两个案例可分别记为a和b，假设a案例信仰基督教，b案例不信仰基督教。

[11] 上述两个模型中，β是回归系数矩阵，X是由性别、年龄、工作性质等条件变量形成的矩阵， ε是随机误差分布。参见：李子奈、潘文卿：《计量经济学》，北京：高等教育出版社2010年版。

[12] 在具体操作时，可以利用嵌入在统计软件中的倾向值匹配模块进行。.

[13] 此处的概率是主观概率或贝叶斯概率，它与我们常见的频率概率是不一样的。比较难理解的是为什么不信仰基督教的人还有信仰基督教的概率。可以借助于生活中的例子进行说明。例如，天气预报今天下雨的概率为80%。实际上，今天要么是下雨要么不下雨。天气预报的下雨概率反映了风向、云层等因素对降水的影响度。

[14] 多元回归经常会出现多重共线性问题，从而导致错误的回归系数。在估计倾向值的逻辑斯蒂或Probit回归中，因为关心的是逻辑斯蒂模型的预测能力，共线性对于模型预测能力没有影响。因此可以把尽可能多的影响结果的条件变量纳入其中。

[15] 其中A表示第i个个案受到条件变量作用后的结果，表示匹配个案未受条件变量作用的结果。