学习行动-价值函数

时间：2022-08-23 百科知识版权反馈

【摘要】：TD 更新规则将会对此认真对待，就如同该结果是该行动的正常结果一样，尽管人们可能认为由于该结果是一个意外，智能体不必过于担心。还有另外一种称为 Q-学习的时序差分方法，它学习的是一种行动-价值表示而不是效用。这种比较引起了一个普遍问题：学习一个模型以及一个效用函数，比学习一个不包含模型的行动-价值函数更好吗？这是人工智能的一个基础问题。

21.3.2 学习行动-价值函数

现在我们有了一个主动 ADP 智能体，让我们考虑一下如何构造一个主动时序差分学习智能体。与被动情况相比最明显的变化是智能体不再具有固定策略，所以，如果它学习效用函数U，就需要学习一个模型以便能够通过单步前瞻在 U 的基础上选择一个行动。TD（时序差分）智能体的模型获得问题与ADP智能体是一样的。TD更新规则本身如何调整？也许很令人吃惊，更新规则(21.3)保持不变。这看起来也许很古怪，原因如下：设智能体采取了一步通常能导向好目的地的行动，但由于环境的非确定性，结果智能体陷入一个灾难性的状态。TD 更新规则将会对此认真对待，就如同该结果是该行动的正常结果一样，尽管人们可能认为由于该结果是一个意外，智能体不必过于担心。当然，事实上，这种不太可能的结果在训练序列的大规模集合中罕有发生。因而，如我们所希望的，在长期运行中其影响将会与其概率成比例。这再一次表明，随着训练序列的数量趋于无穷，TD算法将与ADP收敛到相同的值。

还有另外一种称为 Q-学习的时序差分方法，它学习的是一种行动-价值表示而不是效用。我们用符号Q（a, s）代表在状态s进行行动a的价值。如下所示，Q-值与效用值直接相关：

Q函数也许看起来只是另一种存储效用信息的方法，但它们具有一项非常重要的性质：学习Q函数的TD 智能体不需要一个用于学习或行动选择的模型。由于这个原因，Q-学习被称为一个无模型方法。至于效用，我们可以写一个约束方程，当Q-值正确时，它必须保持均衡：

同在ADP学习智能体中的情况一样，给定估计模型，我们可以将此式直接用作一个计算确切Q-值的迭代过程的更新公式。然而，因为公式使用了T(s, a, s')，这就要求同时学习一个模型。另一方面，时序差分方法则不需要模型。时序差分Q-学习的更新公式为：

只要在状态s下执行行动a导致了状态s'，就对其进行计算。

一个使用时序差分的探索型 Q-学习智能体的完整智能体设计如图 21.8 所示。注意它使用的正是与探索型ADP智能体所使用的同一个探索函数f ——因此需要保留对所采取的行动的统计数据（表格 N）。如果使用了一个较为简单的探索策略——比如说在某个步骤片段上随机地行动，且片段随时间而减小——那么我们就可以省略统计数据。

图21.8 一个探索型Q-学习智能体。它是一个主动的学习者，对每种情况下的每个行动的Q（a,s)值都进行学习。它使用与探索型ADP智能体相同的探索函数f，不过由于一个状态的Q-值可以与其邻居的Q-值直接相关联，可以避免对转移模型进行学习

Q-学习智能体学习4 × 3世界的最优策略的速度远远低于ADP智能体。这是因为时序差分不通过模型强制保持值之间的一致性。这种比较引起了一个普遍问题：学习一个模型以及一个效用函数，比学习一个不包含模型的行动-价值函数更好吗？换句话说，什么才是表示智能体函数的最佳方式？这是人工智能的一个基础问题。正如我们在第一章中所说的，人工智能的许多研究的关键历史特点之一是坚持基于知识的方法（通常未被阐明）。从总体上看这带来一种假定，认为表示智能体函数的最佳方法就是构建智能体所处环境的某些方面的表示。

来自人工智能领域内外的一些研究者曾经宣称诸如 Q-学习这样的无模型方法的可用性意味着基于知识的方法是没必要的。然而，这里除了直觉没有什么依据。不论其价值如何，我们的直觉是，随着环境变得更复杂，基于知识的方法的优点就越明显。这甚至在诸如国际象棋、西洋跳棋（国际跳棋）和西洋双陆棋这样的游戏中已经得到了证实（参见下一节），在这些博弈游戏中，通过模型的方式努力学习一个评价函数比Q-学习方法获得了更大的成功。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈