首页 理论教育 参数估计的方法

参数估计的方法

时间:2022-04-16 理论教育 版权反馈
【摘要】:对lnL求关于pA的导数并令其为0,可以得到为pA的最大似然估计,与直接计数法基因频率的计算公式一致。EM算法是求参数极大似然估计的一种方法。它可以从非完整数据集中对参数进行最大似然估计。在遗传学中,对于两个基因座基因型数据,我们可以用EM算法求得各种单倍型频率的最大似然估计。,xn为总体X的一个样本观测,则称样本的联合概率分布其中Θ0,Θ1均非空。对于这一类检验问题常用似然比检验法。

三、参数估计的方法

(一)最大似然法

假设总体X的概率函数为f(x,θ),其中θ是未知参数,而x是变量,现需要用样本观测值x1,x2,…,xn来估计θ。X的简单随机样本(X1,X2,…,Xn)的联合密度函数为

img175

则称使L(θ)达到最大值时的θ为最大似然估计,记为img176

例如在遗传学中,已知1个群体在某个基因座上的基因型AA,Aa,aa的观测数分别为nAA,nAa,naa,而它们的频率在HWE下可由1个参数pA表示,分别为:

img177

于是参数pA多项式分布的似然函数为

img178

lnL(pA)=c+(2 nAA+nAa)ln(pA)+(nAa+2 naa)ln(1-pA),c为常数。

对lnL(pA)求关于pA的导数并令其为0,可以得到img179为pA的最大似然估计,与直接计数法基因频率的计算公式一致。

(二)EM算法

EM(Expectation-Maximization)算法是求参数极大似然估计的一种方法。它可以从非完整数据集中对参数进行最大似然估计(MLE)。这种方法可以广泛地应用于处理缺失数据、截尾数据、含离群值数据等所谓的不完全数据。EM算法包括两个步骤:E步和M步。它是通过迭代地最大化完整数据的对数似然函数的期望来最大化不完整数据的对数似然函数。

在遗传学中,对于两个基因座基因型数据,我们可以用EM算法求得各种单倍型频率的最大似然估计。例如,我们假设对两基因座基因型的观测如表23-1所示。

表23-1 两基因座基因型的观测数据

img180

由于在上述9种基因型数据中,双杂合基因型AaBb可以分解成2种单倍型组合:{AB,ab}和{Ab,aB},而其他8种基因型数据都只有1种单倍型组合。因此,要估计单倍型AB,Ab,aB,ab的频率,则必须估计出双杂合基因型AaBb分解成各种单倍型的频率。首先,进行EM算法中的E步,计算由AaBb分解成的各种单倍型频率的期望pij

img181

img182

表23-2 两种检验结果的比较

img183

(二)似然比检验法

设总体X的概率分布为p(x;θ),θ∈Θ,其中θ为未知参数,Θ为θ的取值范围,即参数空间。又假定x1,x2,…,xn为总体X的一个样本观测,则称样本的联合概率分布img184

img185

为θ的似然函数,记为L(x1,…,xn;θ),即现考虑如下检验问题:

H0:θ∈Θ0→H1:θ∈Θ1=Θ-Θ0

其中Θ0,Θ1均非空。对于这一类检验问题常用似然比检验法。似然比检验法的基本思想是:如果H0成立,则由极大似然原理可知,最可能有

img186

当H0成立时,LR应比较小,否则就不能认为H0成立。故H0的拒绝域应为{LR>λ0},其中常数λ0依赖于显著性水平α。当给定α后,λ0由α=P(LR>λ0|H0)确定,在通常条件下,LR在零假设下渐近服从χ2分布。

(三)贝叶斯检验法

贝叶斯检验方法是利用参数θ的后验分布h(θ|X),分别计算零假设H0和对立假设H1的后验概率p0=h(θ∈Ω0|X)与p1=h(θ∈Ω1|X)(后验概率的计算可参见贝叶斯公式),其中X=(x1,x2,…,xn)为样本观察值,Ω为参数空间。当p0<p1时,则否定H0;当p0>p1时,则不否定H0

例7 设总体ξ服从N(a,σ0),σ0=2为已知值,考虑参数a简单假设检验问题:

H0:a=3,H1:a=5

假定参数a有先验信息:

π(a0=3)=0.8,π(a1=5)=0.2

设有观察值

x=3.8,试用贝叶斯方法对H0是否成立作出统计推断(n=16)。

解:

img187

img188

于是否定H0

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈