收入不平等的健康效应研究水平的选择

时间：2023-07-01 百科知识版权反馈

【摘要】：研究者在对某个问题进行研究时，会根据研究问题和目的以及所能获得的数据资料选择不同的研究水平。他们的研究假设为收入不平等在中国对健康的效应可能随时间而变化，且其出现即意味着收入不平等对健康存在独立效应。

研究者在对某个问题进行研究时，会根据研究问题和目的以及所能获得的数据资料选择不同的研究水平。研究水平分为单水平研究和多水平研究。以下将分别探讨两种研究水平的优劣及其对研究结果可能造成的影响，并选用典型研究案例加以解释。

(一)单水平研究

单水平研究可以有不同的解释，如生态研究本身也可以是单水平研究，只是属于宏观水平。单水平研究还可以是个体水平的研究，所有因素均不区别其水平或层次特点，统一作为一个水平进入模型，如都作为个体水平。在将所有因素都置于同一水平上时，与标准的多水平模型相比，可能更容易得到具有显著统计学意义的效应结果。但单水平研究不能区分不同测量水平的变异，没有系统考虑个体的聚集性特点(cluster)。如果数据存在个体的聚集性(这在大规模的人群调查中常见)，聚集在同一区域的人群往往具有类似的特征，此时就需考虑组内相关(intra-cluster correlation)问题，采用单水平模型获得的系数(coefficient)或比值比(odds ratio)的点估计会与多水平模型类似，但相应的标准误(相应的可信区间)则会被低估，从而得出对点估计错误的统计检验结果。

生态学研究是指在群体层面上进行的探索预测因素与研究因素间关系的研究。研究的具体单位可以是国家、省、市、社区等。生态学研究往往会带来生态学谬误，即以群体为单位测量的自变量与因变量之间的关系，并不能够说明在个体水平两者间的确存在某种联系或者相互影响。所以，此种方法并非研究者的最佳选择，往往是由于数据资料限制所选择的次优方法。另外，再以不同国家作为研究单位时，还要考虑到这些国家和地区的统计资料可能存在口径和质量的差异。

Vogli等(2005)使用1995～2000年意大利的调查资料及2003年联合国开发计划署(UNDP)人类发展指标数据库的资料进行研究，期望证明收入不平等与健康关系的存在。他们首先在意大利不同地区进行个体研究，分析不同地区收入不平等与期望寿命的关系；然后又将意大利与人均收入GDP占全球前25位的工业化国家进行比较，分析不同国家收入不平等与期望和期望寿命的关系。在意大利内部，作者先采用Pearson相关系数分别分析各研究自变量与期望寿命的关联，又采用多变量线性回归模型在控制人均收入和教育获得的前提下测量收入不平等对期望寿命的影响；在不同国家层面，则仅使用Pearson相关系数测量在调整人均收入的前提下收入不平等和期望寿命的关系。结果发现，在调整人均收入、教育和人均GDP的前提下，在意大利，收入不平等及教育获得与出生时期望寿命独立相关，而人均收入则与之无关。与其他发达国家相比较，意大利收入不平等与出生时期望寿命呈现强烈负相关关系。选择较高水平的研究单位可以避免结果受到个人收入的影响，但同时可能导致生态学谬误。该结果不适用于解释较低水平上收入不平等与健康的关联，该研究的跨国比较部分也可能受到各国统计差异以及统计时间段不同的影响。

Messias(2003)利用生态学研究来探寻巴西的收入不平等、人均GDP、文盲率和期望寿命的关系。研究采用了回归模型逐步纳入变量的模型策略。结果发现各州的人均GDP与期望寿命呈显著正相关，收入不平等及文盲率与期望寿命呈显著负相关。但在回归模型中纳入文盲率变量后，收入不平等与期望寿命的关系无显著统计学意义［43］。但是，文章纳入的分析因素有限，无法排除文盲率和期望寿命的关联也是由混杂因素导致，抑或是收入不平等在多元回归模型中关联性的消失是由于共线性所导致的可能性。除此之外，在州的水平上证实部分因素对期望寿命影响的有无，不能认为在另一测量水平上会得出同样研究结论。

英国York大学的Hugh Gravelle采取更审慎地考察了生态研究问题(aggregation problem)，系统研究了绝对收入的统计假象(statistical artefact)问题，即健康与绝对收入之间的非线性(curvillinear)关系导致收入不平等对健康形成效应的假象。并且利用Rodgers(1979)的原始数据，应用了更为科学完整的模型否定了收入不平等与健康的关联［44，45］。

(二)多水平研究

多水平研究目前已经是一种比较完善和成熟的研究方法，特别是在相应的统计过程被软件化后，使其应用更加方便，这也是目前有关的多水平研究模型日益增多的原因。多水平模型根据数据结构的特点，将变量按其性质分别置于不同水平上，考察不同水平变量之间的关联，这属于多水平模型的固定部分(fixed part)。通常应变量是个体水平的健康测量，而自变量是多水平的。多水平模型相对于单水平模型的另一个优势是能区分不同水平的方差，这主要在随机部分(random part)体现，可以通过考察不同水平的变量进入模型前后相应水平的随机方差的变化，判断变量的模型意义。当然，多水平模型虽有许多优于单水平模型之处，但多水平模型估计的统计计算强度却远高于单水平模型，其随机部分可以是基于随机截距模型(random intercept)的估计，也可以是随机系数模型(random coefficient model)的估计，但后者的统计计算强度要大许多。而且对数据的样本含量也会有一定要求，特别是对每一水平(如一个包含省、县、家庭和个体的数据库)的分类数量不能太少。由于数据库的情况不同，多水平模型在进行系数估计时出现不收敛的状况也远较单水平回归模型多，特别是要采用更准确的估计方法时(如采用二阶PQL估计就比一阶MQL估计更易出现不收敛)。

Pei和Rodriguez(2006)［46］利用多水平模型研究了中国在改革开放后所面临的收入不平等问题对自报健康状况的影响。他们的研究假设为收入不平等在中国对健康的效应可能随时间而变化，且其出现即意味着收入不平等对健康存在独立效应。研究资料来自1991、1993和1997年中国健康营养调查数据。研究涉及个体与省级两个水平，采用两水平回归模型分析人均收入、收入不平等与自报健康的关系。结果发现在省级水平，收入不平等对自报健康状况存在独立效应。两者的相互关系不会随家庭收入和省人均收入变量的纳入而消失，并且随着时间的推移增强；而且就收入不平等的独立效应而言，收入不平等程度较严重省的效应强于收入不平等程度较轻的省。多水平研究将省级水平的收入资料与个人水平健康资料结合起来，分别分析了两者的关联，有效验证了作者关于收入不平等“污染效应”存在的研究假设。但该研究的问题在于，研究使用了中国健康营养调查的资料，该调查虽然按照收入水平在中国选择了经济发展水平高、中、低的9个省，每个省选择4个县进行调查，但因所选的省份均为东中部地区。如果纳入其他(如西部)省份是否会使结果发生变化不得而知，故其结果无法简单地推广到全国。另外，作者在文中提到使用了来自其他研究者的覆盖范围更大更全的基尼指数资料，但是该资料有可能无法与研究人口匹配。这也反映上述研究没有很好地在多水平模型中体现数据的层次结构，收入不平等的测量水平应更低一些。在这样的模型框架下，在省级水平出现的收入不平等的独立效应有可能是在更低水平上的效应。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈