首页 理论教育 算法的一般形式

算法的一般形式

时间:2022-02-11 理论教育 版权反馈
【摘要】:我们已经看到了EM算法的几个例子。令x为在所有实例中的所有观察值,Z代表所有实例的所有隐变量,θ是概率模型的所有参数。那么EM算法可以表示为这个公式是一个简约表示的EM算法。一旦确认出合适的隐变量,从一般形式出发,为特定的应用推导出一个EM算法是可能的。通过一个采样算法,比如MCMC,学习过程是非常直观的:MCMC访问的每个状态可以当作一个完整的观察进行精确的处理。

20.3.4 EM算法的一般形式

我们已经看到了EM算法的几个例子。每个例子都涉及到对每个实例计算隐变量的期望值,然后重新计算参数值,这里把期望值当作观察到的值来使用。令x为在所有实例中的所有观察值,Z代表所有实例的所有隐变量,θ是概率模型的所有参数。那么EM算法可以表示为


这个公式是一个简约表示的EM算法。E步骤是求和计算,也就是“完整”数据关于分布P(Z = z|x, θ(i))的对数似然期望值,该分布是在给定数据下隐变量的后验。M步骤是关于参数的期望对数似然的最大化过程。对于混合高斯模型,隐变量是Zi j,其中如果实例j由成份i生成,则Zi j是1。对于贝叶斯网络,隐变量是每个实例的未观测变量的值。对于HMM,隐变量是i → j的转移。一旦确认出合适的隐变量,从一般形式出发,为特定的应用推导出一个EM算法是可能的。

只要我们理解了EM的一般思想,就很容易推导出各种变形和证明。例如,在许多情况下,E步骤——计算隐变量的后验——是不可操作的,如同大型贝叶斯网络一样。研究表明可以用一个近似的E步骤,仍然可以得到有效的学习算法。通过一个采样算法,比如MCMC(参见第14.5节),学习过程是非常直观的:MCMC访问的每个状态(隐变量和观测到的变量的配置)可以当作一个完整的观察进行精确的处理。这样,参数可以在每次MCMC的转移之后直接进行更新。另一个近似的推理形式,诸如变形的和循环的方法,也被证实对学习超大规模网络是有效的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈