智能体体系结构

时间：2023-02-11 理论教育版权反馈

【摘要】：很自然地，人们会问“一个智能体应该使用第二章中的哪种智能体体系结构？”一个完整的智能体必须两者都能做到，通过一种混合体系结构。例如，看到前方发生了事故，一个出租车驾驶智能体必须在瞬间决定是刹车还是进行避让。可以通过定义一个由环境状态和智能体自己的计算状态所构成的一个联合状态空间来建立反射型体系结构的理论基础。

27.2 智能体体系结构

很自然地，人们会问“一个智能体应该使用第二章中的哪种智能体体系结构？”答案是“全部！”我们已经看到，在时间极其重要的情形下，需要用反射式的反应，而基于知识的深思熟虑则允许智能体预先计划。一个完整的智能体必须两者都能做到，通过一种混合体系结构。混合体系结构的一项重要特性是不同决策组件之间的边界不是固定的。例如，编译持续不断地将思考层的陈述性信息转换为更有效率的表示，最终达到反射层——参见图 27.2。（这就是第十九章中讨论的“基于解释的学习”的目的。）诸如SOAR（Laird等人，1987）和THEO（Mitchell，1990）这样的智能体体系结构正是这种结构。每次经过明确的思考解决一个问题以后，它们会保存下解决方案的一般化版本供反射组件使用。较少研究的一个问题是此过程的逆过程：当环境变化时，学习到的反射也许不再适合，而智能体必须回到思考层，产生新的行为。

图27.2 编译的作用是把深思熟虑的决策制定过程转变成效率更高的反射式机制

智能体也需要有方法控制它们自己的思考。当需要有行动的时候，它们必须停止思考，同时它们又必须能够利用可用于思考的时间执行最为有利的计算。例如，看到前方发生了事故，一个出租车驾驶智能体必须在瞬间决定是刹车还是进行避让。它还应该用那个瞬间考虑最重要的问题，比如左右的车道是否是空的，后面是否紧跟着一辆大卡车，而不是担心轮胎的磨损和撕裂或者到哪去找下一个乘客。这些问题通常是在实时人工智能的标题下进行研究的。随着人工智能系统进入更复杂的领域，所有的问题都会变成实时的，因为智能体将永远不会有足够长的时间来严密地解决决策问题。

显然，迫切需要在更为一般的决策环境下工作的方法。近年来涌现出两种很有前途的技术。第一种涉及任意时间算法的应用（Dean和Boddy，1988；Horvitz，1987）。任意时间算法是一种输出的质量随时间逐步改善的算法，所以不论什么时候被打断，它都有一个现成的合理决策。这样的算法由一个元状态层决策程序控制，对进一步计算是否有价值进行评估。博弈中的迭代深入搜索提供了任意时间算法的一个简单例子。也可以构建出由许多协同工作的此类算法组成的更为复杂的系统（Zilberstein和罗素，1996）。第二项技术是决策理论元推理（Horvitz，1989；罗素和Wefald，1991；Horvitz和Breese， 1996）。此方法将信息价值理论（第十六章）应用于对计算的选择上。一次计算的价值取决于它的成本（在对行为的延迟方面）和它的收益（在对决策质量的改进方面）。元推理技术可以用于设计更好的搜索算法并保证该算法具有任意时间特性。当然，元推理的代价是昂贵的，可以应用编译方法，从而使得这个代价与受控制的计算的成本相比是很小的。

元推理只是通用反射型体系结构的一个方面——这是使得对计算实体以及行动的思考能够发生在其自身内部的一种体系结构。可以通过定义一个由环境状态和智能体自己的计算状态所构成的一个联合状态空间来建立反射型体系结构的理论基础。可以设计在此联合状态空间上运转的决策和学习算法，从而为实现和改进智能体的计算行为服务。最终，我们期望诸如α-β搜索和反向链接这样的针对任务的算法从人工智能系统中消失，被能够引导智能体的计算向着有效生成高质量决策的方向发展的通用方法所取代。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈