转移概率和报酬

时间：2024-10-01 百科知识版权反馈

【摘要】：报酬r（i，a）是定义在i∈S和a∈A上的实值函数。在选取行动后，模型只需知道它的值或期望值。注意，在一般的实际问题中，转移是可以发生在两个决策时刻中间的。之所以用“马尔科夫”，是因为转移概率和报酬仅仅依赖于当前的状态和决策者选取的行动，而不依赖于过去的历史。但是在某些策略下，诱导出来的随机过程不一定是马尔科夫过程。这里我们把包括了最优准则的马尔科夫决策过程称为马尔科夫决策问题。

9.1.3　转移概率和报酬

任意一个决策时刻，在状态i采取行动a∈A（i）之后，有两个结果：①决策者获得报酬r（i，a）；②下一个决策时刻系统所处的状态由概率分布p（·｜i，a）决定。

报酬r（i，a）是定义在i∈S和a∈A（i）上的实值函数。当r（i，a）为正值时，表示收入；当其为负值时，则表示费用。从模型的角度看，报酬r（i，a）是即时的，但是在这个决策周期内是如何获得的并不重要。在选取行动后，模型只需知道它的值或期望值。实际上，报酬可以包括到下一个决策时刻的一次性收入、持续到下一阶段的累积收入，以及转移到下个状态的随机收入等。一般来讲报酬还依赖下一个决策时刻的状态j，即r（i，a，j）。那么，行动a的期望值报酬为