首页 理论教育 反应式控制

反应式控制

时间:2022-02-11 理论教育 版权反馈
【摘要】:在某些情况下,一个反射型智能体的设计——所谓的反应式控制——是更合适的。一个用来对一条腿进行控制的增强有限状态机。这样的控制模式易于编制程序实现,并且在平地上工作得非常好。所得到的控制器作为一个有限状态机如图25.22所示;它构成一个具有状态的反射型智能体,其中的内部状态是通过当前有限状态机状态的索引而表示的。从技术的角度,反应式控制器只是对用于MDP的策略的一种具体实现。

25.6.3 反应式控制

到目前为止我们已经考虑了需要用一些环境模型来构造参考路径或势场的控制决策。这种方法存在一些困难。首先,足够精确的模型经常是难以获得的,尤其是在复杂或遥远的环境中,比如火星的表面。其次,即使在我们能够设计足够精确的模型的情况下,计算上的困难和定位误差将会使这些技术不实用。在某些情况下,一个反射型智能体的设计——所谓的反应式控制——是更合适的。

一个这样的例子就是6条腿的机器人,或称六足机器人(hexapod),如图25.22(a)所示,用于在粗糙地形上行走的任务。该机器人的传感器远远不能获取足够精确的地形模型,满足实施前一节中所述任何路径规划技术的要求。另外,即使我们加入足够精确的传感器,12个自由度(每条腿2个)将使所产生的路径规划问题在计算上是不可操作的。


图25.22 (a)一个六足机器人。(b)一个用来对一条腿进行控制的增强有限状态机(AFSM)。注意这个AFSM会对传感器反馈产生反应:如果一条腿在向前摆动的过程中被挡住了,它就会被不断抬高

尽管如此,还是有可能直接确定一个控制器,而不用显式的环境模型。(我们已经通过PD控制器看到了这一点,它可以在没有机器人动力学的显式模型的情况下使一个复杂的机械手保持在目标上;然而,它的确需要一条从运动学模型中产生的参考路径。)对于我们的有腿机器人的例子来说,在正确的抽象层次上确定一条控制法则被证明出奇的简单。一个可行的控制法则或许会使每一条腿轮流运动,所以有些时候它与地面接触,而其余时候它在空中移动。所有的6条腿应该相互协调,使其中的3条(不在同一侧)总是在地面上,从而提供实际的支撑。这样的控制模式易于编制程序实现,并且在平地上工作得非常好。在崎岖不平的地表上,障碍物将会阻止腿向前摆动。这个问题可以用一条极其简单的控制规则来克服:当一条腿的向前运动受阻时,只需将它缩回来,抬高一些,然后再试一次。所得到的控制器作为一个有限状态机如图25.22(b)所示;它构成一个具有状态的反射型智能体,其中的内部状态是通过当前有限状态机状态的索引而表示的(从s1到s4)。

这个简单的反馈驱动控制器的一些变形已经被发现可以生成非常鲁棒的行走模式,能够让机器人在崎岖不平的地表上机动行走。显然,这样的控制器是不需要模型的,它并不考虑或使用搜索来产生控制。当执行这样的控制器时,环境反馈在由机器人产生的行为中扮演着至关重要的角色。只靠软件本身不能指定当机器人被放置在一个环境中时实际上将会发生什么。从(简单的)控制器与(复杂的)环境的相互作用中涌现出来的行为经常被称为涌现行为。严格地说,本章所讨论的所有机器人都显现了涌现行为,因为没有一个模型是完美的。然而,在历史上,这个术语专用于那些没有利用显式的环境模型的控制技术。涌现行为也是大量生物体的典型特征。

从技术的角度,反应式控制器只是对用于MDP(或者POMDP,如果它们具有内部状态)的策略的一种具体实现。在第十七章中,我们遇到了一些用来从机器人和它的环境的模型中生成策略的技术。在机器人学中,手工制定这样的策略在实用中是非常重要的,因为我们不能形式化表示精确的模型。第二十一章描述了用于从经验中建立策略的强化学习的方法。那些方法中的一部分——诸如 Q-学习和策略搜索方法——不需要环境模型,而且能够为机器人生成高质量的控制器,不过要依赖于大量的训练样本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈