马尔科夫决策过程概念

时间：2024-10-01 百科知识版权反馈

【摘要】：马尔科夫决策过程是序列决策过程的主要研究领域。马尔科夫决策过程是一类特殊的序列决策问题，其特点是可采用的行动集，既得回报和转移概率只是依赖于当前的状态和选取的行动，与过去的历史无关。下面给出一个例子来说明马尔科夫决策过程模型的动态过程，特别是决策过程中的关键因素。从上例我们可以看出，马尔科夫决策过程的主要成分包括决策周期、状态、行动、转移概率和报酬。

9.1　马尔科夫决策过程概念

马尔科夫决策过程是序列决策过程的主要研究领域。一个序列决策过程包括以下几点：①所有的决策时刻点集；②系统的所有可能的状态集合；③可以采用的全体行动集合；④与状态和行动相关联的既得回报或费用集合；⑤与状态和行动相关联的转移概率的集合。一般来讲，我们总认为决策者在开始做决策的时候这些量是已经知道的。我们这样描述一个不确定的序列决策过程：在每一个决策时刻，系统的状态为决策者提供了选取行动的一切必要信息，其中包括这个状态上的有效的行动集合。作为选取行动的结果，有两件事发生：决策者得到既得回报和系统的状态依照一定的概率规律在下一个决策时刻转移到一个可能的新状态，当然报酬和转移概率都是依赖于当时的状态和这个状态上决策者选取的行动。这个过程随着时间的推移，决策者可以得到一个报酬序列。

从另一个角度来看，在每个决策时刻，系统可能的每一个状态在决策过程中都有可能出现。针对每个不同的状态，决策者会选取不同的行动，我们把在一个特定的决策时刻在每个可能的状态上选取行动的原则称为决策规则。决策规则不仅依赖于当前状态，而且还有可能依赖于以前的那些状态和在那些状态上行动的选取。我们把在将来任意可能的状态上选取行动的规则称之为策略。一个策略实际上就是一个决策规则的序列。因此一个策略产生了一个报酬序列的某个函数值——准则在这个策略下达到最大。准则的选取要有决策者权衡各方面的利弊而决定。

马尔科夫决策过程是一类特殊的序列决策问题，其特点是可采用的行动集，既得回报和转移概率只是依赖于当前的状态和选取的行动，与过去的历史无关。下面给出一个例子来说明马尔科夫决策过程模型的动态过程，特别是决策过程中的关键因素。

以机器最优维修策略问题为例，等周期地观察一台运行的机器，用初始观察到的运行情况作为机器这样周期的状态。根据运行情况，机器可能处于两个状态：正常运行（记作i＝1）和出了故障（记作i＝2）。在任一个周期，如果机器正常运行可得到的收益为10元，到下一个周期初，仍处于正常情况的概率为0.7，发生故障的概率为0.3。处于正常运行状态时，决策者可以采取的行动只有一个，即继续生产（记为a₁）。如果机器处于状态2（出了故障），决策者有两个行动可供选择：一个是快修（记为a₂），费用是5元，而该时段能修复为正常运行状态的概率为0.6，另外一个是常规修理（记为a₃），费用是2元，且在该时段能修复的概率为0.4。如果用p（j｜i，a）表示t时刻观察到的系统状态是i，选用行动a，于t＋1时刻转移到状态j的概率；r（i，a）表示在时刻t观察到的状态为i并选用行动a所获得的报酬，则把上面的数据整理为如表9.1所示。

表9.1　转移概率和报酬

问题是：在各个周期初，根据决策者观察到系统实际运行状态，应该如何选取行动才能使整个考察期内的收益最大。

从上例我们可以看出，马尔科夫决策过程的主要成分包括决策周期、状态、行动、转移概率和报酬。作为决策者，所面对的问题就是抓住影响所控制的概率系统的机会，也就是适时的做出系列行动的选择，以期达到决策者心目中某种准则的优化。由于受控制的系统在持续发展，过去的决策通过状态的转移影响到今天的决策。一般来讲，一步最优的选择不是最好的决策，必须要考虑系统将来状态上的预期机会和费用。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈