首页 理论教育 机器人控制中的应用

机器人控制中的应用

时间:2022-02-11 理论教育 版权反馈
【摘要】:小车连杆问题与先前描述的状态变量x,θ,x&和θ&连续的问题不同。小车可以被一个观察x,θ,x&和θ&的控制器向左或右猛地拉动对此问题的学习工作最早是由Michie和Chambers完成的。只需经过大约30次试验,他们的BOXES算法就能使连杆保持平衡超过一个小时。人们发现当设备的初始位置与那些训练中用到的不一样时,离散化将引起一些问题,这表明一般化还不完善。

21.4.2 机器人控制中的应用

著名的小车连杆平衡问题,也称为倒置摆的装置如图21.9所示。该问题是控制小车的位置x以使连杆基本保持竖直(θ≈π / 2),同时保持在所示的小车轨道极限以内。就这个看似简单的问题,已经发表了两千多篇关于强化学习和控制理论的论文。小车连杆问题与先前描述的状态变量x,θ,x&和θ&连续的问题不同。其行动通常是离散的:猛地拉向左边或拉向右边,即所谓的乒乓控制(bang-bang control)模式。


图21.9 移动小车上的长连杆平衡问题的装置。小车可以被一个观察x,θ,x&和θ&的控制器向左或右猛地拉动

对此问题的学习工作最早是由Michie和Chambers(1968)完成的。只需经过大约30次试验,他们的BOXES算法就能使连杆保持平衡超过一个小时。不仅如此,与许多后续的系统不同,BOXES是用真正的小车和连杆实现的,而不是模拟的。该算法首先将四维状态空间离散化到空间盒(box)——也就是算法的名称。然后它进行试验直到连杆倒下或小车撞到轨道的末端。负强化与在最后的空间盒中进行的最终行动相联系,然后通过序列反向传播。人们发现当设备的初始位置与那些训练中用到的不一样时,离散化将引起一些问题,这表明一般化还不完善。通过使用根据观察到的回报变化而适应性地对状态空间进行分割的算法可以获得改进的一般化和更迅速的学习。如今,平衡一个三段倒置摆已经成为常见习题——这项技艺远远超过了绝大多数人类的能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈