首页 百科知识 使用全联合分布进行推理

使用全联合分布进行推理

时间:2022-08-23 百科知识 版权反馈
【摘要】:我们将使用全联合概率分布作为“知识库”,从中可以得到所有问题的答案。其全联合分布是一个2 × 2 × 2的表格,如图13.3所示。注意根据概率公理的要求,联合分布中的所有概率之和为1。它对所有X和Y的值进行循环以枚举当e固定时所有的原子事件,然后根据全联合分布的概率表将它们的概率加起来,最后对结果进行归一化。给定要使用的全联合分布,ENUMERATE-JOINT-ASK 对于回答离散随机变量的概率查询而言是一个完整的算法。

13.4 使用全联合分布进行推理

在本节中我们描述一种概率推理的简单方法——也就是,根据已经观察到的证据计算查询命题的后验概率。我们将使用全联合概率分布作为“知识库”,从中可以得到所有问题的答案。和这种方法一起,我们也会介绍几种在对涉及概率的公式进行处理时非常有用的技术。

我们从一个非常简单的例子开始:一个由3个布尔变量Toothache、Cavity以及Catch(由于牙医的钢探针不洁而导致的牙龈感染)组成的定义域。其全联合分布是一个2 × 2 × 2的表格,如图13.3所示。


图13.3 关于Toothache、Cavity、Catch世界的全联合分布

注意根据概率公理的要求,联合分布中的所有概率之和为1。公式(13.2)为我们提供了计算任何命题概率的一种直接的方法,无论是简单命题还是复合命题:我们只需要确定在其中命题为真的那些原子事件,然后把它们的概率加起来。例如,命题cavity∨toothache在6个原子事件中成立:

P(cavity∨toothache)=0.108+0.012+0.072+0.008+0.0165+0.064=0.28

一个特别常见的任务是将随机变量的某个子集或者某单个变量的分布抽取出来。例如,将图13.3中第一行的条目加起来就得到cavity的无条件概率,或者称为边缘概率[8]

P(cavity)=0.108+0.012+0.072+0.008=0.2

这个过程称为边缘化,或者称求和消元(summing out)——因为除了Cavity以外的变量都被求和过程排除在外了。对于任何两个变量集合Y和Z,我们可以写出如下的通用边缘化规则:

也就是说,Y的分布可以通过根据任何包含Y的联合概率分布对所有其它变量进行求和消元得到。根据乘法规则,这条规则的一个变形涉及条件概率而不是联合概率:


这条规则称为条件化。以后会发现,对于涉及概率表达式的所有种类的推导过程,边缘化和条件化是非常有用的规则。

在大部分情况下,我们会对计算某些变量的条件概率感兴趣,已知关于某些其它变量的证据。条件概率可以如此找到:首先使用公式(13.1)得到一个无条件概率的表达式,然后再根据全联合分布对表达式求值。例如,已知牙疼的证据,我们可以计算牙洞的概率如下:


为了验算,我们还可以计算已知牙疼的证据时病人没有牙洞的概率:


注意这两次计算中的项1 / P(toothache)是保持不变的,与我们计算的Cavity的值无关。事实上我们可以把它看成是P(Cavity|toothache)的一个归一化常数,保证其所包含的概率相加等于1。贯穿于处理概率的章节,我们将用α 来表示这样的常数。用这个符号我们可以把前面的两个公式合并写成一个:

P(Cavity|toothache)=α P(Cavity,toothache)

=α [ P(cavity, toothache, catch)+P(Cavity, toothache, ¬catch) ]

= α [0.108, 0.016+0.012, 0.064] = α 0.12, 0.08 = 0.6, 0.4

在很多概率的计算中,归一化都是一个非常有用的捷径。

从这个例子里我们可以抽取出一个通用推理过程。我们将只考虑查询仅涉及一个变量的情况。我们将需要使用一些符号表示:令X为查询变量(前面例子中的Cavity);令E为证据变量集合(就是前面例子中的Toothache),e表示其观察值;并令Y为其余的未观测变量(就是前面例子中的Catch)。查询为P(X|e),可以对它求值:

其中的求和针对所有可能的y(也就是对未观测变量Y的值的所有可能组合)。注意变量X,E以及Y一起构成了域中所有变量的完整集合,所以P(X, e, y)只不过是来自全联合分布概率的一个子集。算法如图13.4所示。它对所有X和Y的值进行循环以枚举当e固定时所有的原子事件,然后根据全联合分布的概率表将它们的概率加起来,最后对结果进行归一化。


图13.4 通过枚举全联合分布中的所有条目进行概率推理的算法

给定要使用的全联合分布,ENUMERATE-JOINT-ASK 对于回答离散随机变量的概率查询而言是一个完整的算法。然而它的规模扩展性并不好:对于一个由n个布尔变量所描述的域,它需要一个大小为O(2n)的概率表作为输入,同时还要花费 O(2n)的时间来处理这个表。在实际问题中,可能有几百甚至几千个随机变量要考虑,而不只是3个。要定义所需的如此大量的概率很快就成为完全不切实际的——为了分别估计概率表中的每一个条目所需的经验就是不可能存在的。

由于这些原因,表格形式的全联合分布对于建造推理系统而言不是一个实用的工具(虽然本章末尾所附的“历史的注释”中包含了一个使用这种方法的现实世界应用)。替代地,它应该被视为可能构建更有效方法的理论基础。本章的其余部分介绍了一些基本思想,以备发展第十四章中的几个实际系统之需。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈