首页 理论教育 把概率扩展到一阶表示

把概率扩展到一阶表示

时间:2022-02-11 理论教育 版权反馈
【摘要】:在第八章中,我们阐述了一阶逻辑相对于命题逻辑在表示上的优势。如果我们能够找到一种途径把概率理论与一阶表示的表达能力结合起来,我们期望能够显著地扩展可以处理的问题范围。因此,一阶概率知识库应该指定所有可能的一阶模型的概率。例如,ProfSmith表示一个教授的名字,而Jones表示一个学生的名字。也就是说,关系概率模型和贝叶斯网络为每个可能世界都指定相同的概率。

14.6 把概率扩展到一阶表示

在第八章中,我们阐述了一阶逻辑相对于命题逻辑在表示上的优势。一阶逻辑约定对象的存在性,以及它们之间的关系,并且能够表达关于域中一些或者全部对象的事实。这经常能产生比等价的命题描述简洁得多的表示。现在来看,贝叶斯网络本质上是命题的:变量集是确定且有限的,并且每个变量都有其确定的可能值域。这个事实限制了贝叶斯网络的应用。如果我们能够找到一种途径把概率理论与一阶表示的表达能力结合起来,我们期望能够显著地扩展可以处理的问题范围。

要实现这个目标,一个基本的见解是:在命题上下文中,贝叶斯网络指定原子事件的概率,而每一个原子事件则为网络中的每个变量指定了一个值。因此,一个原子事件就是命题逻辑术语中的一个模型或者可能世界。在一阶逻辑上下文中,一个模型(及其解释)指定了一个对象域、这些对象之间成立的关系,以及一个从知识库中的常量和谓词到模型中的对象与关系的映射。因此,一阶概率知识库应该指定所有可能的一阶模型的概率。令μ (M)为知识库赋予模型M的概率。对于任何一阶语句φ,按照一种通常的方式,概率 P(φ)可以通过在所有使φ为真的可能世界上求和得到:


到目前为止一切正常。然而,这里有一个问题:一阶模型的集合是无限的。这意味着(1)求和可能无法实现,(2)要为世界的无限集合指定一个完备而一致的分布可能非常困难。

我们先收回我们的野心,至少暂时如此。特别地,让我们构造一套其中只包含有限个所关心模型的受限语言。有几种方法可以做到这一点。这里我们介绍关系概率模型(relational probability model),或缩写为 RPM,它借鉴了来自语义网络(第十章)和对象关系数据库(object-relational database)的思想。其它方法在“参考文献历史的注释”中进行了讨论。

关系概率模型允许用常量符号来命名对象。例如,ProfSmith表示一个教授的名字,而Jones表示一个学生的名字。每个对象都是一个类的实例,比如ProfSmith是一个Professor(教授)而Jones是一个Student(学生)。我们假设每个常量符号所属的类都是已知的。

我们的函数符号可以分成两类。第一类称为简单函数(simple function),将对象映射到一个确定值域中的某个值,比如随机变量,而不是另一个结构化对象。举几个例子,Intelligence(Jones)和Funding(ProfSmith)的取值可能是hi(高)或者lo(低)(分别表示学生Jones的智力水平以及教授Smith的研究经费水平高或者低——译者注);而 Success(Jones)和 Fame(ProfSmith)则可能为 true 或者 false (分别表示Jones是否成功以及Smith是否有很高的名望——译者注)。函数符号一定不能作用于诸如true和false这类值,因此不可能发生简单函数嵌套的情况。通过这种方法,我们能够避免一种导致无穷情况的来源。作用于一个给定对象上的简单函数,其取值可能是已观察到的,或者是未知的;它们构成了我们的表示方法中的基本随机变量。[17]

我们也允许复合函数(complex Function)存在,它们将对象映射到其它对象。例如,Advisor(Jones)的值可能等于ProfSmith(表示Jones的导师是Smith教授——译者注)。每个复合函数都有其特定的定义域与值域,它们是类(class)。例如,函数Advisor的定义域是Student,值域为Professor。函数只能作用于适当的类中的对象;例如,ProfSmith 的 Advisor 是未定义的。复合函数允许嵌套:DeptHead(Advisor(Jones))的取值可能是ProfMoor(e 表示Jones的导师所在系的系主任是Moore教授——译者注)。我们(暂时)假设对于所有常量符号,所有复合函数的取值都是已知的。因为知识库是有限的,这意味着每个复合函数链最终得到有限数量的对象之一。[18]

我们所需要的最后一个要素是概率信息。对于每个简单函数,我们都要指定一个父节点集合,正如在贝叶斯网络中那样。父节点可以是关于同一对象的另一个简单函数,比如Professor的Funding可能依赖于他或者她的Fame;也可以是关于其它相关对象的简单函数,比如学生是否Success不仅依赖于该生的Intelligence,而且还依赖于其导师的Fame。这些实际上是关于一个类中所有对象的父节点的全称量化断言。因此我们有


Parents(Success(x)) = {Intelligence(x), Fame(Advisor(x))}

(不太形式化地,我们也可以画出一个类似于图14.16(a)这样的图)。现在我们为所有的子节点指定条件概率分布,给定其父节点。比如,我们可以指定


P(Success(x)=true|Intelligence(x)=hi,Fame(Advisor(x))=true)=0.95正如在语义网络中一样,我们可以将条件分布附加到类本身,以便它的实例能够从类中继承(inherit)独立性和条件概率。


图14.16(a)一个描述两个类Professor(教授)和Student(学生)的关系概率模型(RPM)。这里有两个教授和两个学生,ProfSmith是这两个学生的导师。(b)与图(a)中的RPM等价的贝叶斯网络

关系概率模型语言的语义假设每一个常量符号都指代了不同的对象——即第十章中所描述的唯一名称假设。在这个假设以及前面列出的限制条件下,可以证明每个关系概率模型都生成一个确定的有限随机变量集,其中每一个元素都是作用于一个常量符号的简单函数。那么,倘若父节点与子节点之间的依赖关系是无环的,我们就能构造出等价的贝叶斯网络。也就是说,关系概率模型和贝叶斯网络为每个可能世界都指定相同的概率。图14.16(b)显示了对应于图14.16(a)中的关系概率模型的贝叶斯网络。注意关系概率模型中的几条 Advisor 边在贝叶斯网络中没有出现。这是因为它们是确定而且已知的。不过,它们隐含地出现在网络的拓扑结构里;比如,Success(Jones)具有父节点Fame(ProSmith),因为Advisor(Jones)就是ProfSmith。总的来说,对象之间成立的关系决定了这些对象的性质之间的独立关系模式。

有几条提高关系概率模型表达能力的途径。我们可以允许变量间的递归依赖性来捕捉某种递归关系。例如,假设吃快餐上瘾是由 McGene(一种虚构的遗传基因——译者注)造成的。那么对于任何x,McGene(x) 依 赖 于 McGene(Father(x)) 和 McGene(Mother(x)),接 着 又 依 次 依 赖 于McGene(Father(Father(x)),McGene(Mother(Father(x)),等等。尽管这样的知识库对应于有无限多个随机变量的贝叶斯网络,有时仍然可以通过不动点方程得到解。例如,可以计算出给定继承的条件概率下 McGene 的平衡分布。另一个非常重要的递归知识库家族由第十五章中所述的时序概率模型(temporal probability model)组成。在这些模型中,时刻t的状态性质依赖于时刻t – 1的状态性质,依此类推。

也可以扩展关系概率模型以考虑关系不确定性(relational uncertainty)——也就是说,复合函数的取值的不确定性。例如,我们可能不知道 Advisor(Jones)是谁,于是 Advisor(Jones)就成为了一个随机变量,其可能的取值包括ProfSmith和ProfMoore。对应的网络结构如图14.17所示。


图14.17 对应 RPM的贝叶斯网络的一部分,在其中Advisor(Jones)是未知的,但其取值只能是 ProfSmith 或者ProfMoore之一。对于导师的选择取决于每个教授各自的经费有多少。注意Success(Jones)现在同时依赖于两个教授的Fame(声望),虽然Advisor(Jones)决定了真正起作用的究竟是谁

还有身份不确定性(identity uncertainty)。例如,我们可能不知道Mary和ProfSmith是不是同一个人。通过身份不确定性,对象和命题的数目可以在可能世界之间变化。在Mary和ProfSmith其实是同一个人的世界中,其对象的个数比他们不是同一个人的世界要少一个。这使得我们的推理过程更复杂,但公式(14.12)中确立的基本原则仍然成立:任何语句的概率都是有良好定义的并且是可计算的。对于必须记录多个对象的机器人和嵌入式传感器系统,身份不确定性尤其重要。我们将在第十五章中回到这个问题。

现在让我们检查一下推理的问题。显然,推理可以在等价的贝叶斯网络中完成,倘若我们限制RPM语言,使得等价的网络是有限的而且有确定结构的。这类似于通过在等价的命题知识库进行的命题推理来完成一阶逻辑推理的方法(参见第9.1节)。如同在逻辑的情况中一样,即使不考虑求值运算问题,与关系概率模型等价的贝叶斯网络也可能会过于庞大而难以构造。网络中节点间密集的相互联系也是一个问题。(参见习题14.12。)因此诸如马尔可夫链蒙特卡洛方法这样的近似算法在关系概率模型推理中非常有用。

当我们将马尔可夫链蒙特卡洛方法应用到与不含关系不确定性或者身份不确定性的关系概率模型等价的贝叶斯网络时,算法从由对象的简单函数值所定义的可能世界空间中进行采样。容易看到,这种方法同样可以扩展以处理关系不确定性和身份不确定性。在那种情况下,可能世界之间的转移也许会改变简单函数的取值,或者也许会改变复合函数的取值,从而导致依赖关系结构的变化。这样的转移同样也会改变常量符号之间的身份关系。因此,对于处理表达能力相当强的一阶概率知识库中的推理问题,MCMC看来是一种很好的方法。

这个领域中的研究仍然处于早期阶段,但已经逐渐明确的是,一阶概率推理极大地提高了处理不确定性信息的人工智能系统的效率。其潜在的应用包括计算机视觉、自然语言理解、信息检索,以及局势评估(situation assessment)等等。在所有这些领域中,对象的集合——因此也包括随机变量的集合——都是无法事先知道的,所以诸如贝叶斯网络之类的纯“命题化”方法是没有能力完备地表达这种状况的。通过搜索模型空间的方法能够对这些方法有所改进,但是关系概率模型却允许在一个单一模型中对这种不确定性进行推理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈