首页 理论教育 动态规划模型

动态规划模型

时间:2022-02-12 理论教育 版权反馈
【摘要】:动态规划是解决多阶段决策过程最优化的一种方法.1951年美国数学家贝尔曼等人,根据一类多阶段决策问题的特性,提出了解决这类问题的“最优化原理”,并研究了许多实际问题,从而创建了最优化问题的一种新方法——动态规划.多阶段决策问题,是指这样一类活动的过程:由于它的特殊性,可将它划分成若干个相互联系的过程,在它的每个过程都需要做出决策,并且一个阶段的决策确定以后,常影响下一个阶段的决策,从而影响整个决策

动态规划是解决多阶段决策过程最优化的一种方法.1951年美国数学家贝尔曼等人,根据一类多阶段决策问题的特性,提出了解决这类问题的“最优化原理”,并研究了许多实际问题,从而创建了最优化问题的一种新方法——动态规划.

多阶段决策问题,是指这样一类活动的过程:由于它的特殊性,可将它划分成若干个相互联系的过程,在它的每个过程都需要做出决策,并且一个阶段的决策确定以后,常影响下一个阶段的决策,从而影响整个决策的结果.多阶段决策问题就是要在允许的决策范围内,选择一个最优决策,使整个系统在预定的标准下达到最佳的效果.研究某一个过程为例,这个过程可以分解为若干个互相联系的阶段.每一阶段都有其初始状态和结束状态,其结束状态即为下一阶段的初始状态.第一阶段的初始状态就是整个过程的初始状态,最后一阶段的结束状态就是整个过程的结束状态.在过程的每一个阶段都需要做出决策,而每一阶段的结束状态依赖于其初始状态和该阶段的决策.动态规划问题就是要找出某种决策方法,使过程达到某种最优效果.动态规划示意如图5-7所示.

图5-7 动态规划示意图

阶段:用动态规划求解多阶段决策问题时,要根据具体的情况将系统适当地分成若干个阶段,以便分阶段求解,描述阶段的变量称为阶段变量.

状态:状态表示系统在某一阶段所处的位置或状态.

决策:某一阶段的状态确定以后,从该状态演变到下一阶段某一状态所作的选择或决定称为决策.描述决策的变量称为决策变量,用uk(xk)表示在第k阶段的状态xk时的决策变量,决策变量限制的范围称为允许决策集合,用Dk(xk)表示第k阶段从xk出发的决策集合.

策略:由每阶段的决策uk(xk)(k=1,2,…,n)组成的决策函数序列称为全过程策略或简称策略,用P表示,即:

由系统的第k个阶段开始到终点的决策过程称为全过程的后部子过程,相应的策略称为后部子过程策略,用Pk(xk)表示k子过程策略,即:

对于每一个实际的多阶段决策过程,可供选取的策略有一定的范围限制,这个范围称为允许策略集合,允许策略集合中达到最优效果的策略称为最优策略.

状态转移:某一阶段的状态及决策变量取定后,下一阶段的状态就随之而定.设第k阶段的状态变量为xk,决策变量为uk(xk),第k+1个阶段的状态为xk+1,用xk+1=Tk(xk,uk)表示从k阶段到k+1阶段状态转移规律,称之为状态转移方程.

阶段效益:系统某阶段的状态一经确定,执行某一决策所得的效益称为阶段效益,它是整个系统效益的一部分,是阶段状态xk和阶段决策uk(xk)的函数,记为dk(xk,uk).

指标函数:指标函数是系统执行某一策略所产生效益的数量表示,根据不同的实际情况,效益可以是利润、距离、时间、产量或资源的耗量等.指标函数可以定义在全过程上,也可以定义在后部子过程上,指标函数往往是各阶段效益的某种和式,取最优策略时的指标函数称为最优策略指标.

最后根据动态规划原理得到动态规划的一般模型如下所示:

其中fk(xk)表示从状态xk出发到达终点的最优效益,N表示可将系统分成N个阶段,根据问题的性质,上式中的min有时是max.

动态规划是数学建模中经常被用到的一种优秀方法,接下来就通过两个例题来熟悉动态规划方法.

例5-10 生产计划制订问题

设某厂计划全年生产某种产品A,其四个季度的订货量分别是600件、700件、500件、1200件.已知生产产品A的生产费用与产品数量的平方成正比,其比例系数是0.005,厂内有仓库可存放未销售掉的产品,其存储费为每件每季度1元,问每一季度各应生产多少产品,才能使总费用最少?

【解题思路】

这是一个典型的多阶段决策问题,每一季度为一个阶段.取第k季度初具有的产品数为状态变量xk;取第k季度需要生产的产品数为决策变量uk

由状态xk采取决策uk后的状态转移方程显然为:xk+1=xk+uk-Ak.

其中Ak为已知,A1=600,A2=700,A3=500,A4=1200.

在问题中,效益就是费用,故阶段效益为:d(xk,uk)=xk+0.005u2k.

若用fk表示从状态xk出发,采用最优策略到第四季度结束时产生最小费用,则有如下的动态规划模型:

先从最后一个季度k=4算起,求极值问题:f4x4)=minu4≥1200-x4{x4+0.005u24},显然应取u4=1200-x4,于是得:f4=7200-11x4+0.005x24.

再考虑k=3,求极值问题如下:

利用求极值方法对u3进行求导得到:0.01u3-11+0.01(x3+u3-500)=0.

得:u3=800-0.5x3f3(x3)=7550-7x3+0.0025x23.

再考虑k=2,求极值问题如下:

再对u2进行求导得到:0.01u2-7+0.005(x2+u2-700)=0.

得u2=700-x2/3f2(x2)=10000-6x2+0.005x23/3.

最后考虑k=1,求极值问题如下:

最后对u1进行求导得到:0.01u1-6+0.01(x1+u1-600)/3=0.

注意到x1=0,于是u1=600,f1(x1)=11800.

因而这一生产-库存管理系统各季度的库存量和最优策略序列分别为:

x 1=0,x2=0,x3=0,x4=300,x5=0,u1=600,u2=700,u3=800,u4=900,应用这一策略,才能使总费用最少,为11800元.

例5-11 生产与储存问题

某公司主要为电力公司生产大型变压器,由于电力公司采取预订方式购买,所以该公司可以预测未来几个月的需求量.为确保需求,该公司为新的一年前4个月制订一项生产计划,这4个月的需求如表5-9所示.

生产成本随着生产数量而变化.调试费为4,除了调试费用外,每月生产的头两台各花费为2,后两台各花费为1.最大生产能力为每月4台,生产成本如表5-10所示.

表5-9 四个月需求表

表5-10 成本表

每台变压器在仓库中由这个月存到下个月的储存费为1,仓库的最大储存能力为3台.另外,知道在1月1日时仓库里存着一台变压器,要求在4月30日仓库的库存量为零.试问该公司应如何制订生产计划,使得四个月的生产成本和储存费用最少?

【解题思路】

按月份来划分阶段,第i个月为第i个阶段,设sk为第k阶段初库存量;xk为第k阶段的生产量;dk为第k阶段的需求量;这些数值可以从表5-9得知.

因为下个月的库存量等于上个月的库存量加上上个月的生产量减去上个月的需求量,就得到了如下状态转移方程:

由于必须要满足需求,则有sk+xkdk.

另一方面,第k阶段的生产量xk必不大于同期的生产能力(4台),也不大于第k阶段至第四阶段的需求之和与第k阶段初库存量之差,否则第k阶段的生产量就要超过从第k阶段至第四阶段的总需求,故有.

从以上的状态转移方程0=s4+x4-d4x4=d4-s4=3-s4,这样就有f4s4)=minr4s4x4)=r4s4,3-s4).

这里的阶段指标rnsnxn)可以分为两部分,即生产成本与储存费,即为rnsnxn)=cnxn)+hnsnxn).

由于第四阶段末要求库存为零,即有h4(s4,x4)=1×0=0,这样可得:f4(s4)=r4(s4,3-s4)=c4(3-s4)+h4(s4,3-s4)=c4(3-s4).

对于每个s4的可行值,f4(s4)的值列于表5-11.

表5-11 可行值表

表中当s4=0时,可知第四阶段要生产x4=3-s4=3台,从表5-11可知总成本为9,同样可以算出当s4为1,2,3时的情况,结果已列于表5-11中.

第三阶段:此时有r3(s3,x3)=c3(x3)+h3(s3,x3)=c3(x3)+1×(s3+x3-d3).

因为s4=s3+x3-d3,以及d3=1,所以有如下表达式:

当第三阶段初库存量s3=1,生产量x3=2时,则s3+x3-d3=1+2-1=2,所以生产成本为8,第三阶段末库存为2时,储存费为2,而f4s4)=f4(2),由表5-11可知f4(2)=6,可知r3(1,2)+f4(2)=16,其他结果如表5-12所示.

表5-12 动态规划数据表

第二阶段:因为s3=s2+x2-d2,以及d2=4,所以有如下表达式:

计算结果如表5-13所示.

表5-13 动态规划数据表

第一阶段:因为s2=s1+x1-d1,以及d1=2,s1=1,所以有

计算结果如表5-14所示.

表5-14 动态规划数据表

利用递推关系可以得到两组最优解,此时有最低总成本29.如下所示:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈