多变量竞争风险模型

时间：2022-03-08 百科知识版权反馈

【摘要】：两两交互的卡方检验并配以Kaplan-Meier生存函数图用于考察核心代际关系变量与死亡发生之间是否存在显著相关以及得到直观的生存比例和生存函数图。在代际关系与老年人死亡风险议题上，一些学者也使用了frailty Coxmodel以纠正常规生存模型中的回归系数，得出了一些有意义的结论。由于本研究因变量是老年人的死亡风险，而frailty Cox model恰好提供了这样一个解决未观测异质性的有效手段，因此，本研究通篇都使用这种方法。

研究方法_代际关系对老年人死亡风险影响研究

本研究除了使用常规的频数分析、两两交互的卡方检验、Kaplan-Meier生存函数图以及普通Cox回归以外，还采用frailty Cox model以及倾向值加权的分析方法。

常规的频数分析用于代际关系变量在历年中的变化情况以及模型需要的变量分布情况描述。两两交互的卡方检验并配以Kaplan-Meier生存函数图用于考察核心代际关系变量与死亡发生之间是否存在显著相关以及得到直观的生存比例和生存函数图。普通Cox比例风险模型是学者们使用追踪数据研究死亡风险的首选方法之一(张震，2002；张震，2004)。Cox风险分析法的优点是在处理截删和时变性解释变量上具有比多元回归更大的优势，但其缺点是该模型的基本假设为：不论基线风险如何，在任何时间点上，存在某一暴露的个体相对不存在该暴露的个体发生事件的风险是恒定的，即两组人群在任何时间点上发生事件的风险比例是恒定的，相应协变量的参数估计必须满足比例风险假设。但是很多学者在实际应用中通常并未对这一假设进行检验，导致模型的选择以及模型的结果可能存在一定偏差。本研究使用考虑了虚弱度因子的Cox回归模型。该虚弱度因子涉及社会科学中未观测到的异质性的解决。

一、虚弱度风险模型（frailty Cox model）

“未观测到的异质性”(unobserved heterogeneity)是社会科学研究中经常碰到的情形(Wooldrideg，J.M.，2002)。因为在现实中，我们不可能观测到所有的变量，或者即使观测到该变量了，由于各种原因在模型设置时仍然忽略了一些关键的解释变量。这种“未观测到的异质性”在人口学或流行病学中被称为“frailty(虚弱度)”。早在20世纪70年代末，James W.Vaupel等人在使用生命表研究死亡时就发现，每个个体在通往死亡道路上的虚弱性是不同的，虚弱者先死，于是提出了“frailty”概念并强调在死亡分析中要注意这种虚弱性(Vaupel et al，1979)。Janet等人进一步指出，未观测到的异质性产生的原因是数据集中的一些观测对象较其他对象“虚弱(frail)”(Janet et al，2004)，这种虚弱性是看不见摸不着但又在现实生活中存在的。

对于frailty，一种通常的做法是把它放入模型中的误差项。但是，如果frailty与某些解释变量相关的话，可能会使估计的系数有偏，即发生了忽略变量偏误问题(郭申阳等，2012；曾毅等，2011)，而即使它与解释变量不相关，也可能会出现这些问题。特别是在有关死亡风险的研究中，它对结果的干扰要比在其他模型中大得多(焦开山，2011)。

在处理未观测到的异质性的问题上，目前学界发展了一些相关模型，例如工具变量估计、固定效应模型、随机效应模型和有限混合模型。它们的共同特征是在模型中引入未观测的回归量，以试图消除/减少由忽略重要回归量引起的偏误。但是不同模型对未观测异质性的分布以及它与解释变量之间关系的假定也可能是不同的，例如在有限混合模型中，未观测异质性被假定为一个潜类别变量；在纵贯数据中它被假定为连续型变量。在固定效应模型中，允许未观测异质性与解释变量相关；在随机效应模型中，假定未观测异质性不能与解释变量相关，且假定未观测异质性服从某一个分布，比如正态分布、伽马分布，等等。

由于这种“未观测到的异质性”在实际操作中很难纳入模型测量，虚弱性概念的提出则提供了一种简易的测量方法，并将之用于生存数据中，就得到了frailty Coxmodel(AndreasWienke，2010)。其模型设置为：

μ(t｜X，Z)＝Zμ0(t)e Xtβ

其中，t是存活时间，Z是虚弱性(frailty)，μ0(t)是基准模型的发生风险，X是自变量集，e的值大约是2.718 282，β是回归系数，是自变量的每一类取值相对于各参照类的相对风险比。

Frailty Coxmodel其实是常规Cox风险模型的一种扩展，是在后者的基础上增加了一个虚弱度因子而已。在代际关系与老年人死亡风险议题上，一些学者也使用了frailty Coxmodel以纠正常规生存模型中的回归系数，得出了一些有意义的结论(焦开山，2011；王伟进等，2015)。

由于本研究因变量是老年人的死亡风险，而frailty Cox model恰好提供了这样一个解决未观测异质性的有效手段，因此，本研究通篇都使用这种方法。另外，为了与传统的Cox回归方法结果做一个对照，本研究也提供了普通Cox回归的结果以说明在死亡分析中加入脆弱度因子的必要性。

虚弱度因子既可以是个体层次的，也可以是群体层次的。本研究采用个体层次的frailty Cox model，并假定其分布为伽马混合分布(a gamma mixture distribution)。

二、倾向值分析方法

以往的研究表明，居住安排和老人健康/死亡风险之间存在相互影响、互为因果的关系(Worobey et al，1990；Waite et al，1999；张震，2004；何明媚等，2009；吕如敏等，2013)，例如与子女同住的老年人其健康状况更差或者死亡风险更高，反之亦然。即发生了变量间的内生性问题。在克服内生性问题方面，主要有三种方法。第一种方法是寻找工具变量法，第二种方法是使用配对的联合方程模型法。本研究使用的是第三种方法，即倾向值分析方法。

倾向值分析方法源于计量经济学家Heckman在处理非随机分配时如何估计干预效应的探讨(Heckman，1978)。后来，统计学家Rosenbaum和Rubin提出了“倾向值(propensity score)”术语，用之来修正选择性偏差(Rosenbaum et al，1983)。

倾向值分析方法就是这么一种基于反事实框架用于修正选择性偏差的技术。具体的步骤是寻找最佳的条件变量或者协变量，这些变量被怀疑导致了干预组和控制组间的不平衡、不匹配或者再抽样，然后基于匹配样本进行匹配后的分析。倾向值分析方法的优点是可以得到核心自变量对因变量的净影响，但缺点是需要用多种匹配方法得到的结果来验证所得结果的稳定性。另外，这种方法也因进入选择方程中的变量再次进入回归方程而备受质疑，特别时当两个方程中的变量高度重合时尤为如此。

具体的倾向值分析方法有很多种，例如贪婪匹配法、倾向值加权法、最佳匹配等。其中倾向值加权方法不需要匹配，而是使用倾向值作为抽样权重进行多元分析。这里可以从估计的倾向值(p)得到两种权重：平均干预效应(ATE)和干预组平均干预效应(ATT)。为了估计ATE，我们为干预组成员创建的权重为1/p，为控制组成员创建的权重为1/(1-p)；为了估计ATT，我们为干预组成员创建的权重为1，为控制组成员创建的权重为p/(1-p)。随后进行样本不平衡检查，如果样本得到了平衡，可以做后续加权的回归分析；如果样本没有得到平衡，说明倾向值加权并不能消除协变量不平衡，加权分析的结果可能仍然有偏。

考虑到在代际关系与老年死亡风险议题上目前还没有发现使用倾向值分析方法进行研究的文献，因此，本研究将在婆媳同住小节尝试使用倾向值加权方法，并结合frailty Cox model回归分析，以期在不损失样本量的情况下得到婆媳同住对老年人死亡风险所产生的净影响。

本研究使用Stata12.0软件进行数据整理、变量转换、倾向值加权以及frailty Cox model的设置和运算等工作。

【注释】

[1]由于在生存分析中2005年失访的老人不能提供有价值的信息，故对其删除，而保留后两次调查失访老人样本。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈