机器翻译的概率学习

时间：2022-02-11 理论教育版权反馈

【摘要】：在与这些语句对齐的英语语句中出现频度最高的词语很可能是“brun”的词对词翻译。例如，我们可能得到如下结果：源法语：　　 Le　chien　　brun　　 n’　est　pas　allé à　 la　 maison首先，用当前的参数估计为每个语句对建立词语对齐向量。所以，当我们为新的参数估计搜集证据时，我们被迫寻找一些高概率的对齐并根据其概率赋予它们权重。根据初始的参数我们计算对齐，再根据对齐我们改进参数估计。

我们已经勾勒了涉及4个参数集合的P(F|E)的模型：

语言模型：P(wordi|wordi-1)

繁殖模型：P(Fertility = n|wordF)

词语选择模型：P(wordE|wordF)

偏移模型：P(Offset = o|pos, lenE, lenF)

即使是一个只包含1000个词语的适中词表，这个模型也需要上百万个参数。显然，我们必须从数据中学习这些参数。假设我们可用的数据只是一个双语语料库。以下是如何使用它：

切分语句：翻译的单元是语句，因此我们将语料库分解成语句。句号是最强的语句结束标志，但是要考虑到“Dr. J. R. Smith of Rodeo Dr. arrived.”；只有最后一个句号才表示一条语句的结束。语句切分大约有98％的正确率。

估计法语语言模型P(wordi|wordi-1)：只考虑语料库中的法语那一半，计算词语对的频度，并进行平滑以得到对P(wordi|wordi-1)的估计。例如，我们可能得到P(Eiffel|tour)=0.02。

语句对齐：对英语版本的每条语句，判断它所对应的法语语句有哪（些）条。通常，英语的下一句话和法语的下一句话以 1:1 的匹配相对应，但是有时也有变化：一种语言中的一条语句会被分割成2:1的匹配，或者两个语句的顺序要交换，造成一个2:2的匹配。只考虑语句的长度，利用Viterbi切分算法（见图23.1）的一个变种就可能以90％到99％之间的准确度对齐它们（1:1，1:2或2:2等）。如果采用两种语言都常用的界标，诸如数词或专用名词，或者一些我们知道从双语字典中的翻译无歧义的词语，甚至能得到更好的对齐结果。

现在我们已经准备好估计翻译模型的参数了。我们首先会做一个较差的初始猜测，然后会对其进行改进。

估计初始繁殖模型P(Fertility = n|wordF)：给定一个长度为m的法语语句，它与一条长度为n的英语语句对齐，认为这是每个法语词语的繁殖度为n/m的证据。考虑所有语句上的全部证据，以得到每个词的繁殖度的概率分布。

估计初始词语选择模型P(wordE|wordF)：考虑所有包含比如说“brun”的法语语句。在与这些语句对齐的英语语句中出现频度最高的词语很可能是“brun”的词对词翻译。

估计初始偏移模型P(Offset = o|pos, lenE, lenF)：现在我们已经有了词语选择模型，用它来估计偏移模型。对于每条与一条长度为m的法语语句对齐的长度为n的英语语句，考虑语句中的每个法语词（处于位置i）以及语句中对应于各法语词最可能的词语选择的每个英语词（处于位置j），并当作P(Offset =i − j|i, n , m)的证据。

改进所有的估计：利用 EM（期望最大化）改进上述估计。隐变量是每一对语句及其对齐语句之间的词语对齐向量。对于每个英语词语，该向量给出每个相应的法语词语在法语语句中的位置。例如，我们可能得到如下结果：

源法语：　　 Le　chien　　brun　　 n’　est　pas　allé à　 la　 maison

目标英语：　 The brown　 dog　　 did　not　　 go　　　　　home

词语对齐：　 1　 3　　　 2　　　 5　 4　　　 7　　　　　 10

首先，用当前的参数估计为每个语句对建立词语对齐向量。这使我们能做出更好的估计。繁殖模型是通过计算词语对齐向量中每个成员对应于多个或0个词语的次数实现的。现在词语选择模型只需要考虑那些彼此对齐的词语，而不是语句中的所有词语，偏移模型则根据词语对齐向量考虑语句中的每个位置，以观察其移动的次数。不幸的是，我们并不确切知道什么是正确的对齐，而且它们数量太多不能枚举。所以，当我们为新的参数估计搜集证据时，我们被迫寻找一些高概率的对齐并根据其概率赋予它们权重。这就是我们需要EM算法的全部原因。根据初始的参数我们计算对齐，再根据对齐我们改进参数估计。重复上述过程直到收敛。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈