基于效用的智能体

时间：2023-02-11 理论教育版权反馈

【摘要】：效用函数把状态映射到实数，该实数描述了智能体与状态相关的高兴程度。在第十六章里，我们将会展示任何理性的智能体都表现得如同拥有一个效用函数并试图使其期望值最大化。拥有显式的效用函数的智能体因此可以做出理性决策，而且它可以通过通用算法做到，这样的算法是不依赖于要最大化的特定效用函数的。基于效用的智能体程序出现在第五部分，在该部分中我们将设计必须能处理在部分可观察环境中固有的非确定性的决策智能体。

2.4.5 基于效用的智能体

单靠目标实际上不足以在多数环境中生成高品质的行为。例如，有很多行动序列可以让出租车到达它的目的地（因而达到目标），但有些会比其它的更快、更安全、更可靠，或者更便宜。目标只提供了一个“快乐”和“不快乐”状态之间粗略的二值区分，而更普遍的性能度量应该允许比较不同的世界状态，根据如果可以达到时它们能让智能体快乐的确切程度进行比较。因为“快乐”这个词语听起来并不很科学，所以习惯的术语是说如果一个世界状态比另一个更受偏好，那么它对智能体来说有更高的效用（utility）[24]。

效用函数把状态（或者状态序列）映射到实数，该实数描述了智能体与状态相关的高兴程度。完整规格的效用函数通常可以在目标不充分的两种情况下帮助进行理性决策。第一，当有多个互相冲突的目标，而只有其中一部分目标可以达到时（例如速度和安全性），效用函数确定了适当的折中。第二，当智能体瞄准了几个目标，而没有一个有把握达到时，效用函数提供了一种根据目标的重要性对成功的似然率加权的方式。

在第十六章里，我们将会展示任何理性的智能体都表现得如同拥有一个效用函数并试图使其期望值最大化。拥有显式的效用函数的智能体因此可以做出理性决策，而且它可以通过通用算法做到，这样的算法是不依赖于要最大化的特定效用函数的。用这种方法，对理性的“全局”定义——把那些达到最高性能的智能体函数标记为理性的——就转变为可以用一段简单的程序表达的、对于理性智能体设计的“局部”约束。

基于效用的智能体结构如图2.14所示。基于效用的智能体程序出现在第五部分，在该部分中我们将设计必须能处理在部分可观察环境中固有的非确定性的决策智能体。