四种抽样方法误差排序

时间：2023-02-14 理论教育版权反馈

【摘要】：生存分析是对生存数据进行统计分析的一门学科，它是根据医学、生命科学、可靠性工程、保险等科学研究中的大量问题提出的［1-3］.近三十年来生存分析受到国内外统计学家的关注，研究异常活跃.生存数据不仅出现在生物医学中，而且出现在可靠性工程、犯罪学、社会学、市场学和商业研究中.在这些领域生存数据的例子有：可靠性工程电子设备（元件或系统）的寿命，犯罪学中重罪犯人的假释时间，社会学中首次婚姻的持续时间.它也可

生存分析是对生存数据进行统计分析的一门学科，它是根据医学、生命科学、可靠性工程、保险等科学研究中的大量问题提出的［1-3］.近三十年来生存分析受到国内外统计学家的关注，研究异常活跃.生存数据不仅出现在生物医学中，而且出现在可靠性工程、犯罪学、社会学、市场学和商业研究中.在这些领域生存数据的例子有：可靠性工程电子设备（元件或系统）的寿命，犯罪学中重罪犯人的假释时间，社会学中首次婚姻的持续时间.它也可以不是时间，它可以是汽车车轮转动的圈数，也可以是市场学中报纸或杂志的篇幅和订费，甚至可能是工人们的补偿索赔等.生存分析含有许多实用的方法和丰富的理论.随着医疗实践和工程实践及其他领域的推动，不断有新的统计方法出现，应用范围越来越广.在经典统计中我们通常采用简单随机抽样（Simple Random Simpling，简称为SRS）的方法获得所需的生存数据.然而，获得牢靠的生存数据不是一件容易的事.一方面，由于受到实验规模和试验费用的限制，我们不可能对大量的随机样本进行实际测量；另一方面，对样本的实际测量可能比较困难或者具有破坏性.为保证抽样样品的质量指标既有一定的代表性，又尽可能减少抽样检查费用，我们需要寻找简便有效的抽样方法.

在20世纪50年代早期，澳大利亚农业学家Mclntyre［4］在估计农场上牧草产量时提出了排序集抽样（Ranked Set Sampling，简称为RSS）的方法.测量草地的产草量，需要把草割下来，晒干再去称量干草的重量，是非常消耗时间和劳动的过程，但是有经验的眼睛可以对一组数目较少的几块草地进行相当精确的排序，而不需要进行准确的测量.Mclntyre采取了如下的抽样机制，首先随机抽取一组大小为m的草地，通过肉眼对这组草地的产草量进行由小到大的排序，次序最小的草地被抽出.然后从农场中随机抽取另一组大小为m的草地，通过肉眼对他们的产草量进行由小到大的排序，次序为2的草地被抽出.依此类推，直至从第m组草地中抽出次序最大的草地.最后只是对抽出的m个草地进行割草和称重.以上整个过程称为一次循环，这一循环重复k次，则得到样本量为n=mk的排序集样本.1966年，Hall＆Dell［5］设计了一个实验，通过排序集抽样方法对阿巴拉契亚山脉橡树林的产量进行了估计，从这之后，排序集抽样方法逐渐被人们重视.在实际中，只要感兴趣的变量不易测量，但较容易用主观经验判断或其他不需要具体测量的方法对样本进行排序时，使用排序集抽样比简单随机抽样更加有效.例如，研究危险废弃物场所的污染程度时，需要测量有毒化学品的污染指标，通常费用会非常昂贵.通过目视观察落叶或土壤的变色，给出变量的排序，再从排序的变量中有选择性抽取一部分样本进行测量，这样可减少抽样次数.1997年，Yu＆Lam［6］验证了当估计美国内华达测试基地相邻地区表层土壤中钚的含量时，排序集抽样效率比简单随机抽样高.

除了在农业和生态环境上的应用，排序集抽样方法在医学领域也有广泛的应用.人类的许多定量特性，如高血压和肥胖等，遗传度相当高，但遗传机制尚不清楚.这就需要对配对亲属的等位基因测验，并进行遗传相关性分析，通常需要花费大量的金钱和时间来进行实验室检测.然而，医生可以使用排序集抽样技术对病人进行合理地选择，比如依据诸如年龄、体重、身高、血压和健康史等信息对病人进行选择，这一过程的花费是可以忽略的.1995年，Risch＆Zhang［7］在《Science》上论证了对配对亲属进行极值排序集抽样，遗传相关性试验的效率能得到显著地提高.再例如用双能X线吸收法测量人体骨密度水平是花费较高的，但有经验的医生可以不需要做实际测量，对几个被检查的人骨密度水平排序.2004年，美国俄亥俄州立大学骨密度研究中心［8］采用了RSS方法，使得能以较SRS方法少的测量个体，来做出对人群的骨密度水平的合理估计.另外，Chen（2007）［9］和Bouza（2009）［10］分别验证了排序集抽样方法对肺癌和艾滋病临床研究的高效性.

随着排序集抽样方法在医学、农业、经济和生态环境等领域的广泛应用［4～24］，基于排序集抽样的生存分析，成为近年来国内外专家和学者研究的热点问题之一，并且在此领域的理论和应用上都有了一定的进展.然而，大多数文献都是针对生存分析中参数统计进行研究，适当的模型或分布可用来拟合数据或者可以假定数据来自某种分布的总体时，用参数统计方法比较简便，但在实际中有许多情况使得没有一个现实的基础来选择一个特定的分布类型.例如，对一个新试制的治癌药品，事先可能就没有足够的信息来判断病人服用后缓解时间属于哪个分布类.这时我们就无法使用参数统计方法，而是借助非参数方法进行统计推断.非参数统计作为数理统计学的一个分支，是专门研究与分析在总体分布未知的情况下，有关数据总体的统计信息的预测与推断的理论与方法.在过去的20年中，随着医学研究中的临床试验快速研究，使生存统计分析方法研究的重点从参数模型转移到非参数模型.此外，以往文献研究的排序集抽样下生存数据都是完全数据，对于试验产生的删失数据的研究还属于空白.但是生命科学中的生存数据有一个最重要的特点：在研究期间结束时某些个体身上还没有出现我们关心的事件.例如，在研究周期结束时某些患者仍然活着或处于缓解状态，这些个体的确切生存时间不知道.在可靠性工程许多研究中，由于种种条件的限制也不可能获得完全样本.例如，受试验时间、费用等的限制，不可能将寿命试验做到所有元件都失效.

生存函数、平均寿命和百分位寿命均是生存分析主要的数量指标，当生存时间的分布类型未知，为使获得的生存数据包含更多生存时间的信息，本书研究排序集抽样下生存数据的非参数估计问题，在均衡排序集抽样、非均衡排序集抽样和随机删失排序集抽样下分别建立生存函数、平均寿命和百分位寿命的非参数估计量，推导相应估计量的性质，比较与简单随机抽样的相对效率，并把理论结果应用到管理科学和临床医学的实例分析中.目前，国内外对这些问题的研究还属于空白，研究结果不仅能应用到管理科学、医药卫生、可靠性工程，而且在保险数学、犯罪学、社会学、市场学、环境科学等高科技领域都有广泛的应用前景.

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈