首页 理论教育 学习的概率

学习的概率

时间:2022-02-11 理论教育 版权反馈
【摘要】:为了创建PCFG,我们面临构建CFG的全部困难,加上给每条规则设置概率的问题。如果我们获得的是已经被语言学家经过句法分析表示为句法分析树的数据,那么建立PCFG的任务会相当简单。首先,我们实际上有两个问题:学习语法规则的结构和学习与每条规则相关的概率。就像在学习HMM中一样,我们可以采用期望最大化方法。我们设法学习的参数是规则的概率。其次,概率赋值的空间很大,在实验中的一个严重问题是它会被卡在局部极大点。

为了创建PCFG,我们面临构建CFG的全部困难,加上给每条规则设置概率的问题。这暗示着,从数据中学习语法可能会比知识工程方法要好。正如在语音识别中一样,我们可能会得到两种类型的数据:经过句法分析的和未经过句法分析的。如果我们获得的是已经被语言学家(或者至少是经过训练的母语说话人)经过句法分析表示为句法分析树的数据,那么建立PCFG的任务会相当简单。创建这样的一个语料库是一项大投入,最大规模的语料库“仅仅”包含一百万条词语。给定一个句法分析树的语料库,我们能够通过计数(和平滑)建立 PCFG:对于每个非终结符,只要考虑以该节点为根节点的所有节点,为这些节点的子孙节点的每种不同组合都建立一条规则。例如,如果符号 NP 出现了100 000次,而且有列表[NP,PP]的NP出现了20 000次,那么就可建立规则

NP→ NP PP[0.20]

如果我们得到的所有数据都是未经过句法分析的文本,这项任务会比较困难。首先,我们实际上有两个问题:学习语法规则的结构和学习与每条规则相关的概率。(在学习神经元网络和贝叶斯网络中也存在同样的区分。)

现在,我们假设规则的结构是已知的,因此我们只需要设法学习概率。就像在学习HMM中一样,我们可以采用期望最大化(EM)方法。我们设法学习的参数是规则的概率。而隐变量则是句法分析树:我们不能确定由wi... wj组成的某个串是否由规则X → α 产生。E步骤估计每条规则产生每个子序列的概率。然后M步骤估计每条规则的概率。整个计算过程以动态规划的方式实现,所采用的是向内向外算法,类似于HMM中的前向后向算法。

向内向外算法令人不可思议的地方在于能够从未经过句法分析的文本中归纳出语法。但是,它有很多缺点。首先,该算法速度很慢:复杂度是 O(n3t3),其中 n 是语句中词语的数目,t 是非终结符的数目。其次,概率赋值的空间很大,在实验中的一个严重问题是它会被卡在局部极大点。人们尝试使用诸如模拟退火之类的替代方法,但是计算代价更高。第三,由作为结果的语法产生的句法分析结果往往难于理解而且不能令语言学家满意。这使得把手工得到的知识与自动推导得到的知识结合起来非常困难。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈