首页 百科知识 转移概率和报酬

转移概率和报酬

时间:2022-10-01 百科知识 版权反馈
【摘要】:报酬r(i,a)是定义在i∈S和a∈A上的实值函数。在选取行动后,模型只需知道它的值或期望值。注意,在一般的实际问题中,转移是可以发生在两个决策时刻中间的。之所以用“马尔科夫”,是因为转移概率和报酬仅仅依赖于当前的状态和决策者选取的行动,而不依赖于过去的历史。但是在某些策略下,诱导出来的随机过程不一定是马尔科夫过程。这里我们把包括了最优准则的马尔科夫决策过程称为马尔科夫决策问题。

9.1.3 转移概率和报酬

任意一个决策时刻,在状态i采取行动a∈A(i)之后,有两个结果:①决策者获得报酬r(i,a);②下一个决策时刻系统所处的状态由概率分布p(·|i,a)决定。

报酬r(i,a)是定义在i∈S和a∈A(i)上的实值函数。当r(i,a)为正值时,表示收入;当其为负值时,则表示费用。从模型的角度看,报酬r(i,a)是即时的,但是在这个决策周期内是如何获得的并不重要。在选取行动后,模型只需知道它的值或期望值。实际上,报酬可以包括到下一个决策时刻的一次性收入、持续到下一阶段的累积收入,以及转移到下个状态的随机收入等。一般来讲报酬还依赖下一个决策时刻的状态j,即r(i,a,j)。那么,行动a的期望值报酬为

img94

式(9.1)中非负函数p(j|i,a)是下一个决策时刻系统转移到状态j的概率。函数p(j|i,a)被称为转移概率函数。注意,在一般的实际问题中,转移是可以发生在两个决策时刻中间的。在不影响决策的情况下,我们的模型依然适用。通常我们假设

img95

我们把五重组

{T,S,A(i),p(·|i,a),r(i,a)}     (9.3)

称为一个马尔科夫决策过程。之所以用“马尔科夫”,是因为转移概率和报酬仅仅依赖于当前的状态和决策者选取的行动,而不依赖于过去的历史。但是在某些策略下,诱导出来的随机过程不一定是马尔科夫过程。这里我们把包括了最优准则的马尔科夫决策过程称为马尔科夫决策问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈