状态与行动集

时间：2022-10-01 百科知识版权反馈

【摘要】：在每个决策时刻，对系统的描述就是状态。记系统的所有状态可能为S，也称为状态空间。如果在任一个决策时刻，决策者观察到的状态是i∈S，则可以在这个状态i的可用行动集A中选取行动a，其中A也称为行动空间。状态集合S和行动集合A可以是任意的有限集合、可数的无限集合、有限维欧氏空间的紧致子集或者是完备可分度量空间上的博雷尔子集。

9.1.2　状态与行动集

在每个决策时刻，对系统的描述就是状态。记系统的所有状态可能为S，也称为状态空间。如果在任一个决策时刻，决策者观察到的状态是i∈S，则可以在这个状态i的可用行动集A（i）中选取行动a，其中A（i）也称为行动空间。令

并且假定S和A（i）都不依赖于时刻t。状态集合S和行动集合A（i）可以是任意的有限集合、可数的无限集合、有限维欧氏空间的紧致子集或者是完备可分度量空间上的博雷尔（Borel）子集。非特别声明，我们总考虑S和A（i）都是离散的情况。

行动的选取可以是确定性的选取一个，也可以在多个可以的行动中随机性的选取。我们记Dis（A（i））为A（i）的博雷尔子集上的所有概率分布，Dis（A）为A的博雷尔子集上的所有概率分布。随机选取行动就是选取一个概率分布q（·）∈Dis（A（i）），其中选取行动a的概率是q（a）。如果这个分布是退化的，就是确定性的选取行动。

状态空间S和行动空间A（i）也可以一般化为依赖于时间t的情形，但对于大部分应用，这样做并不合适。就理论上来说，只需