首页 理论教育 机器翻译的概率学习

机器翻译的概率学习

时间:2022-02-11 理论教育 版权反馈
【摘要】:在与这些语句对齐的英语语句中出现频度最高的词语很可能是“brun”的词对词翻译。例如,我们可能得到如下结果:源法语:   Le chien  brun   n’ est pas allé à  la  maison首先,用当前的参数估计为每个语句对建立词语对齐向量。所以,当我们为新的参数估计搜集证据时,我们被迫寻找一些高概率的对齐并根据其概率赋予它们权重。根据初始的参数我们计算对齐,再根据对齐我们改进参数估计。

我们已经勾勒了涉及4个参数集合的P(F|E)的模型:

语言模型:P(wordi|wordi-1)

繁殖模型:P(Fertility = n|wordF)

词语选择模型:P(wordE|wordF)

偏移模型:P(Offset = o|pos, lenE, lenF)

即使是一个只包含1000个词语的适中词表,这个模型也需要上百万个参数。显然,我们必须从数据中学习这些参数。假设我们可用的数据只是一个双语语料库。以下是如何使用它:

切分语句:翻译的单元是语句,因此我们将语料库分解成语句。句号是最强的语句结束标志,但是要考虑到“Dr. J. R. Smith of Rodeo Dr. arrived.”;只有最后一个句号才表示一条语句的结束。语句切分大约有98%的正确率。

估计法语语言模型P(wordi|wordi-1):只考虑语料库中的法语那一半,计算词语对的频度,并进行平滑以得到对P(wordi|wordi-1)的估计。例如,我们可能得到P(Eiffel|tour)=0.02。

语句对齐:对英语版本的每条语句,判断它所对应的法语语句有哪(些)条。通常,英语的下一句话和法语的下一句话以 1:1 的匹配相对应,但是有时也有变化:一种语言中的一条语句会被分割成2:1的匹配,或者两个语句的顺序要交换,造成一个2:2的匹配。只考虑语句的长度,利用Viterbi切分算法(见图23.1)的一个变种就可能以90%到99%之间的准确度对齐它们(1:1,1:2或2:2等)。如果采用两种语言都常用的界标,诸如数词或专用名词,或者一些我们知道从双语字典中的翻译无歧义的词语,甚至能得到更好的对齐结果。

现在我们已经准备好估计翻译模型的参数了。我们首先会做一个较差的初始猜测,然后会对其进行改进。

估计初始繁殖模型P(Fertility = n|wordF):给定一个长度为m的法语语句,它与一条长度为n的英语语句对齐,认为这是每个法语词语的繁殖度为n/m的证据。考虑所有语句上的全部证据,以得到每个词的繁殖度的概率分布。

估计初始词语选择模型P(wordE|wordF):考虑所有包含比如说“brun”的法语语句。在与这些语句对齐的英语语句中出现频度最高的词语很可能是“brun”的词对词翻译。

估计初始偏移模型P(Offset = o|pos, lenE, lenF):现在我们已经有了词语选择模型,用它来估计偏移模型。对于每条与一条长度为m的法语语句对齐的长度为n的英语语句,考虑语句中的每个法语词(处于位置i)以及语句中对应于各法语词最可能的词语选择的每个英语词(处于位置j),并当作P(Offset =i − j|i, n , m)的证据。

改进所有的估计:利用 EM(期望最大化)改进上述估计。隐变量是每一对语句及其对齐语句之间的词语对齐向量。对于每个英语词语,该向量给出每个相应的法语词语在法语语句中的位置。例如,我们可能得到如下结果:

源法语:   Le chien  brun   n’ est pas allé à  la  maison

目标英语:  The brown  dog   did not   go     home

词语对齐:  1  3    2    5  4    7      10

首先,用当前的参数估计为每个语句对建立词语对齐向量。这使我们能做出更好的估计。繁殖模型是通过计算词语对齐向量中每个成员对应于多个或0个词语的次数实现的。现在词语选择模型只需要考虑那些彼此对齐的词语,而不是语句中的所有词语,偏移模型则根据词语对齐向量考虑语句中的每个位置,以观察其移动的次数。不幸的是,我们并不确切知道什么是正确的对齐,而且它们数量太多不能枚举。所以,当我们为新的参数估计搜集证据时,我们被迫寻找一些高概率的对齐并根据其概率赋予它们权重。这就是我们需要EM算法的全部原因。根据初始的参数我们计算对齐,再根据对齐我们改进参数估计。重复上述过程直到收敛。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈