首页 百科知识 状态与行动集

状态与行动集

时间:2022-10-01 百科知识 版权反馈
【摘要】:在每个决策时刻,对系统的描述就是状态。记系统的所有状态可能为S,也称为状态空间。如果在任一个决策时刻,决策者观察到的状态是i∈S,则可以在这个状态i的可用行动集A中选取行动a,其中A也称为行动空间。状态集合S和行动集合A可以是任意的有限集合、可数的无限集合、有限维欧氏空间的紧致子集或者是完备可分度量空间上的博雷尔子集。

9.1.2 状态与行动集

在每个决策时刻,对系统的描述就是状态。记系统的所有状态可能为S,也称为状态空间。如果在任一个决策时刻,决策者观察到的状态是i∈S,则可以在这个状态i的可用行动集A(i)中选取行动a,其中A(i)也称为行动空间。令

img91

并且假定S和A(i)都不依赖于时刻t。状态集合S和行动集合A(i)可以是任意的有限集合、可数的无限集合、有限维欧氏空间的紧致子集或者是完备可分度量空间上的博雷尔(Borel)子集。非特别声明,我们总考虑S和A(i)都是离散的情况。

行动的选取可以是确定性的选取一个,也可以在多个可以的行动中随机性的选取。我们记Dis(A(i))为A(i)的博雷尔子集上的所有概率分布,Dis(A)为A的博雷尔子集上的所有概率分布。随机选取行动就是选取一个概率分布q(·)∈Dis(A(i)),其中选取行动a的概率是q(a)。如果这个分布是退化的,就是确定性的选取行动。

状态空间S和行动空间A(i)也可以一般化为依赖于时间t的情形,但对于大部分应用,这样做并不合适。就理论上来说,只需

img92

以及令

img93

再对下面定义的转移概率和报酬函数做相应的修正,就转化为标准的马尔科夫决策模型。有时为了符号的简化,我们可以令A(i)≡A,这对理论研究没有什么影响,只会在应用时对问题的理解造成困难。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈