均衡排序集抽样下统计分析研究现状

时间：2022-02-14 理论教育版权反馈

【摘要】：为了便于和后来提出的非均衡抽样方法的区分，Mclntyre［3］提出的排序集抽样方法又称为均衡排序集样本（Balanced Ranked Set Sampling，简称为BRSS），因为此样本包含每一个次序统计量的信息相同.对均衡排序集样本进行统计推断的理论上的第一个结果是Takahasi等［25］得出的，他们证明排序集样本均值是总体均值的无偏估计，并且此估计量的方差要小于简单随机样本的方差.St

为了便于和后来提出的非均衡抽样方法的区分，Mclntyre［3］提出的排序集抽样方法又称为均衡排序集样本（Balanced Ranked Set Sampling，简称为BRSS），因为此样本包含每一个次序统计量的信息相同.对均衡排序集样本进行统计推断的理论上的第一个结果是Takahasi等［25］得出的，他们证明排序集样本均值是总体均值的无偏估计，并且此估计量的方差要小于简单随机样本的方差.Stockes［26］考虑了用排序集样本来估计总体的方差，结果表明，排序集抽样的精度比简单抽样高.早期文献主要集中在非参数统计分析上，另外还有文献［27～30］.

20世纪90年代初是排序集抽样理论和应用发展的一个转折点，从那以后，关于排序集抽样的各种参数和非参数统计分析被研究，许多有关排序集抽样的新定义和新定理被提出和证明.在基于排序集抽样的参数统计方面，文献［31～37］研究了参数的极大似然估计和贝叶斯估计；文献［38～41］对参数的假设检验进行了研究；文献［42～47］分析了线性回归模型中的参数估计.在基于排序集抽样的非参数统计方面，文献［48～50］考虑了总体均值和方差的非参数估计；文献［51～54］分别首次研究了未知总体中位数的Mann-Whitney-Wilcoxon检验、符号检验、符号秩检验和U检验；文献［55］首次考虑总体比率的非参数估计；文献［56～57］给出了未知总体密度函数和分布函数的非参数估计.这些文献结果均表示排序集抽样效率高于简单随机抽样.

进入21世纪，基于均衡排序集抽样的生存分析，开始受到各国学者的重视，并且在此领域进行了大量的研究，在理论和应用上都有很大的发展.关于此领域的研究也成为国内外近年来热点问题之一.

1.均衡排序集抽样下参数统计研究现状

在参数统计研究中，总体分布类型是已知的，这可以由以往数据分析所积累的经验来判断分布类型.常见的参数分布有正态分布、指数分布、韦布尔分布和对数正态分布等，其中指数分布是生存分析中最重要的一种分布，几乎是专门用于描述电子设备可靠性的一种分布.它计算简单，参数的估计容易，且具有“无记忆性”.有关排序集抽样下参数统计研究主要围绕正态分布和指数分布进行.

生存函数S（t）在生存分析中起着重要作用，它表示个体生存时间长于t的概率，在可靠性工程上常称S（t）为产品的可靠度.2000年，El-Neweihi＆Sinha［58］首次考虑了基于BRSS的指数单元可靠度的估计问题.他们指出了BRSS和可靠度理论的关系，样本量为n的BRSS中的第i个测量值可看作为n个相互独立同分布单元组成的表决系统i/n（F）的寿命时间.利用这一关系构造了可靠度的一类无偏估计量，证明了这类BRSS估计量的方差都小于简单样本估计量的方差，并从这类无偏估计量中给出方差最小的RSS估计量.2005年，Ghitang［59］进一步肯定了对于指数单元可靠度的估计，排序集抽样一致优于简单随机抽样，但同时通过举例指出文献［58］中的最优估计的方差并不是BRSS中最小的.2006年，Sinha［60］等考虑了服从单参数指数分布的单元可靠度估计问题.此文献首次提出了由BRSS和SRS的次序统计量构造可靠度的无偏估计.通过方差的比较，证明出当样本小组数为2时，BRSS的功效优于SRS，同时也证明了BRSS次序统计量构造的无偏估计比SRS无偏估计功效高.

在估计总体均值方面.2000年，Bhoj［61］讨论了基于BRSS的单参数分布族的均值估计问题，证明了总体生存时间服从指数、Rayleigh或Logistic分布时，用排序集样本均值来估计总体均值的精度要高于简单随机样本均值.2007年，Al-Salen＆Al-Ananbeh［62］讨论了基于BRSS的正态分布位置参数的估计问题，证明出当大样本的情况下，BRSS检验统计量的效率一致高于SRS检验统计量.同时，通过对小样本进行模拟比较，结论也表明BRSS优于SRS.2011年，Shadid等［63］给出了正态、指数和Gamma分布均值的修正的最优线性无偏估计（Best Linear Unbiased Estimator，简称为BLUE），数值计算结果表明BRSS的抽样效率高于SRS.

在估计刻度和位置参数方面.2002年，Zheng＆Al-Seleh［64］给出基于BRSS的刻度参数的最大似然估计（Maximum Likelihood Estimator，简称为MLE），证明出对于位置参数，排序集抽样MLE的效率一致优于简单随机抽样MLE.对于刻度参数，排序集抽样MLE至少与简单随机抽样MLE的功效一样.2004年，Abu-Dayyeh等［65］等研究基于BRSS和SRS的Logistic分布中参数估计问题.当刻度已知位置参数未知时，讨论了两种抽样方法下未知参数的MLE和BLUE估计.当刻度和位置参数都未知时，讨论了两个未知参数的（Moment Estimator，简称为MOME）和MLE估计.通过比较估计量的偏差和均方误差，结果表明BRSS的精度都要高于SRS.2009年，利用一种改良排序集抽样方法，Abu-Dayyeh＆Al-Sawi［66］首先讨论了指数分布刻度参数的无偏估计，通过方差的比较，证明出此抽样方法不仅优于SRS，其精度也高于标准BRSS.然后，他们对刻度参数进行了似然比单边检验，模拟比较的结论表明改良排序集抽样比简单抽样的效率高.

在参数估计的其他方面.2006年，Sengupta＆Mukhuti［67］考虑了基于BRSS的指数分布方差的一类无偏估计.通过方差的比较，证明出此类无偏估计不仅优于BRSS的非参数最小方差无偏估计，也优于SRS的一致最小方差无偏估计.2008年，Chacko＆Thmas［68］考虑了两变量指数分布的参数估计问题.2008年，对于服从指数分布的两个系统单元，应用BRSS和SRS的次序统计量，Sengupta＆Mukhuti［69］构造出一个单元寿命大于另一个单元寿命概率的无偏估计，并证明出BRSS无偏估计的方差比SRS无偏估计的方差小.

在国内，学位论文张建军（2007）［70］研究了排序集抽样下样本参数的似然比检验；学位论文吴茗（2011）［71］针对二元指数分布采用伴随变量排序法对总体中兴趣变量的均值进行了估计.

2.均衡排序集抽样下非参数统计研究现状

在参数模型中，模型（即产品的寿命分布类型）假定是已知.但在实际中有许多情况使得没有一个现实的基础来选择一个特定的分布类型.例如，对一个新试制的产品，事先可能就没有足够的信息来断言其寿命属于哪个分布类.因此，不依赖分布类型的非参数方法是一个合适的工具.

在估计总体分布函数方面.2002年，Ozturk［72］利用均衡排序集样本经验分布函数来估计对称分布族的失效分布函数.首先证明了和简单随机样本经验分布函数一样，均衡排序集样本经验分布函数也是未知分布函数的无偏估计，然后证明出BRSS估计量的方差比SRS估计量的方差小.2004年，Chen［73］等把对称分布族扩大到所有分布，对任一未知分布函数，证明了均衡排序集样本经验分布函数都具有无偏性和渐近正态性，并通过渐近方差的比较，结论表明均衡排序集抽样的效率高于简单随机抽样.同年，利用均衡排序集抽样方法，Gulati［74］提出了失效分布函数的BRSS光滑非参数核估计量，此估计量具有无偏性和渐近正态性.针对标准指数分布、标准正态分布和标准对数正态分布与均衡排序集样本经验分布函数进行了比较，结论表明核估计的偏差小于经验分布函数，但在均方误差上不占优势.

在估计总体均值方面，2002年，Zhao＆Chen［75］提出基于BRSS的对称分布族均值的M-估计.首先证明了此估计量具有无偏性和渐近正态性，然后并通过渐近方差的比较，证明了均衡排序集抽样效率高于简单随机抽样，最后又对几类分布进行了小样本模拟比较，结果表明排序集抽样方法仍具有较高的抽样效率.2002年，Bouza［76］利用均衡排序集样本均值来估计未知总体的均值，并通过对韦拉克鲁斯大学755名新生数学能力的实例分析，验证了均衡排序集抽样效率高于简单随机抽样.2009年，Bouza［9］又通过对五组不同年龄段艾滋病感染者的数值分析，进一步证明了均衡排序集抽样方法在估计均值上的高效率.

在估计总体分位数方面，2000年，Chen［77］首次提出用均衡排序集样本的p分位数来估计总体分布的p分位数.2005年，Zhu＆Wang［78］提出从均衡排序集样本中只挑选同一次序秩的测量值，证明出基于此抽样方法的分位数估计量比文献［77］中的估计量具有更小的方差.特别是此文献证明出当估计中位数最优抽样方法是每个样本小组只挑选中位数.2005年Li［79］和2006年Balakrishnan＆Li［80］提出用均衡排序集样本的次序统计量来构造分位数的区间估计.首先给出均衡排序集样本的单个次序统计量和两个次序统计量的密度函数和联合密度函数的计算公式，然后确定了分位数的置信区间及其性质.对于给定的置信水平，证明出BRSS下置信区间的平均长度要小于SRS下置信区间的平均长度，并且随着样本量的增加，均衡排序集抽样的优势越明显.2006年，Deshpande＆Ozturk［81］提出用均衡排序集样本的相邻次序统计量来构造分位数的内插式置信区间.对于给定的置信水平，通过分别对样本量为20，30，40和50进行模拟比较，结论表明此内插式置信区间的平均长度小于简单随机抽样构造的区间平均长度.2009年，Baklizi［82］用均衡排序集样本作出总体平均寿命和分位数的经验似然区间估计.首先构造出均值和分位数的经验似然函数，然后根据经验似然函数的渐近正态性建立置信区间.通过对几种分布的小样本比较，BRSS下经验似然区间的平均长度小于SRS下经验似然区间的平均长度.

在国内，吕亚召（2005）［83］，杨娥（2006）［84］，董晓芳（2006，2010）［85-86］，刘驰宇（2007）［87］，张良勇、董晓芳（2009，2010）［88-89］，刘媛媛（2011）［90］等对均衡排序集抽样下非参数统计的其他问题进行了研究，促进了均衡排序集抽样理论的发展.

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈