算法的一般形式

时间：2023-02-11 理论教育版权反馈

【摘要】：我们已经看到了EM算法的几个例子。令x为在所有实例中的所有观察值，Z代表所有实例的所有隐变量，θ是概率模型的所有参数。那么EM算法可以表示为这个公式是一个简约表示的EM算法。一旦确认出合适的隐变量，从一般形式出发，为特定的应用推导出一个EM算法是可能的。通过一个采样算法，比如MCMC，学习过程是非常直观的：MCMC访问的每个状态可以当作一个完整的观察进行精确的处理。

20.3.4 EM算法的一般形式

我们已经看到了EM算法的几个例子。每个例子都涉及到对每个实例计算隐变量的期望值，然后重新计算参数值，这里把期望值当作观察到的值来使用。令x为在所有实例中的所有观察值，Z代表所有实例的所有隐变量，θ是概率模型的所有参数。那么EM算法可以表示为

这个公式是一个简约表示的EM算法。E步骤是求和计算，也就是“完整”数据关于分布P(Z = z|x, θ(i))的对数似然期望值，该分布是在给定数据下隐变量的后验。M步骤是关于参数的期望对数似然的最大化过程。对于混合高斯模型，隐变量是Zi j，其中如果实例j由成份i生成，则Zi j是1。对于贝叶斯网络，隐变量是每个实例的未观测变量的值。对于HMM，隐变量是i → j的转移。一旦确认出合适的隐变量，从一般形式出发，为特定的应用推导出一个EM算法是可能的。

只要我们理解了EM的一般思想，就很容易推导出各种变形和证明。例如，在许多情况下，E步骤——计算隐变量的后验——是不可操作的，如同大型贝叶斯网络一样。研究表明可以用一个近似的E步骤，仍然可以得到有效的学习算法。通过一个采样算法，比如MCMC（参见第14.5节），学习过程是非常直观的：MCMC访问的每个状态（隐变量和观测到的变量的配置）可以当作一个完整的观察进行精确的处理。这样，参数可以在每次MCMC的转移之后直接进行更新。另一个近似的推理形式，诸如变形的和循环的方法，也被证实对学习超大规模网络是有效的。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈