不确定性与理性决策

时间：2022-02-11 理论教育版权反馈

【摘要】：不确定性的存在彻底改变了智能体进行决策的方式。当不确定性进入画面时，情况就发生了变化。一个特定结果是一种被完全指定的状态，包括诸如智能体是否按时到达机场，以及在机场需要等待多长时间等各种因素。一个状态的效用是与希望通过效用函数表示其偏好的智能体相关的。例如，第六章中的博弈收益函数就是一个效用函数。效用函数甚至会导致利他行为，只需要把别人的幸福包含到能对智能体自身效用有贡献的因素里即可。

不确定性的存在彻底改变了智能体进行决策的方式。在典型情况下逻辑智能体有一个目标，它执行能够保证实现该目标的任何规划。一个行动可以在它是否能获得目标的基础上被选择或者被拒绝，而不管其它的行动可能得到什么。当不确定性进入画面时，情况就发生了变化。再次考虑前往机场的A90规划。假设它有95％的成功几率。这意味着A90是一个理性的选择吗？不一定：或许还有其它规划，比如 A120，有更高的成功概率。如果保证不错过航班是至关重要的，那么冒在机场等候更长时间的风险是值得的。采取A1440规划——涉及提前24小时离家出发的规划——如何？在大部分情况下，这并不是一个好的选择，因为尽管它几乎能够保证我们按时到达，但是它包含了不可忍受的等待。

为了进行这样的选择，智能体必须首先在各种规划的不同可能结果之间有所偏好。一个特定结果是一种被完全指定的状态，包括诸如智能体是否按时到达机场，以及在机场需要等待多长时间等各种因素。我们将使用效用理论来对偏好进行表示和推理（这里所用的术语效用是在“有用的性质”的意义上说的，而不是在电力公司或者自来水厂的意义上说的）。（“效用”一词在英文中为utility，这个词同时有“诸如电力、水和公共交通等公用事业以及由公用事业公司提供的商品或服务”的意思——译者注。）效用理论认为，任何状态对一个智能体而言都有一定程度的有用性，即效用，而智能体会偏好具有更高效用的状态。

一个状态的效用是与希望通过效用函数表示其偏好的智能体相关的。例如，第六章中的博弈收益函数就是一个效用函数。白方赢得一局国际象棋的状态的效用显然对于执白棋的智能体是高的，但是对于执黑棋的智能体是低的。或者换个角度考虑，有些棋手（包括本书作者）可能会对逼平世界冠军感到很高兴，然而其它选手（包括前世界冠军）可能不会高兴。这里没有解释偏好的口味：你或许认为一个喜欢墨西哥胡椒泡泡糖冰激凌而不喜欢夹心巧克力的智能体是古怪的或者甚至是被误导的，但你不能说它是非理性的。效用函数甚至会导致利他行为，只需要把别人的幸福包含到能对智能体自身效用有贡献的因素里即可。

通过效用表达的偏好与理性决策通用理论中的概率理论相结合，称为决策理论：

决策理论 = 概率理论+效用理论

决策理论最基本的思想是：一个智能体是理性的，当且仅当它选择能产生最高期望效用的行动，期望效用是行动的所有可能结果上的平均。这称为期望效用最大化（MEU，Maximum Expected Utility）原则。在第六章中当我们简短地接触西洋双陆棋的优化决策时，我们曾见到过这条原则所发挥的作用。我们将看到它事实上完全是一条通用原则。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈