首页 百科知识 基于算法的最优搜索

基于算法的最优搜索

时间:2022-10-01 百科知识 版权反馈
【摘要】:UCT搜索是整个蒙特卡洛博弈树搜索的核心,在搜索过程中,对于每个当前节点,通过不断对其子节点完成一个UCB1选点的过程,来走完从根节点到叶子节点的一个路径,并完成对叶子节点的评估及展开。Listing17.5就是关于UCT过程的伪码,其中,simulate函数就是完成主要的搜索过程。如果一个搜索节点不是叶子节点,那么,就对于目前所有的可选子节点中,选出一个UCB值最高的节点,继续这个搜索过程;对于叶子节点来说,则首先对该节点进行评估。

17.3 基于UCT算法的最优搜索

UCT搜索是整个蒙特卡洛博弈树搜索的核心,在搜索过程中,对于每个当前节点,通过不断对其子节点完成一个UCB1选点的过程,来走完从根节点到叶子节点的一个路径,并完成对叶子节点的评估及展开。在UCT搜索过程中,选点的公式的选择并不是唯一的,UCB1是一个通常意义上讲很不错的公式,但是,并不一定遁用于我们程序的具体情况,我们在实际使用中根据我们自己的程序进行调整,程序中知识的比例不同,自然就需要不同的参数。

Listing17.5就是关于UCT过程的伪码,其中,simulate函数就是完成主要的搜索过程。如果一个搜索节点不是叶子节点,那么,就对于目前所有的可选子节点中,选出一个UCB值最高的节点,继续这个搜索过程;对于叶子节点来说,则首先对该节点进行评估。最后,就是子节点的展开过程,我们通过第17.2节讲述的逐渐展开技术,随着该节点的访问次数的增加,来将其子节点一个个地不断引入到搜索过程中来。除了UCB1公式以外,还提供了UCB_TUNNED公式作为另外一个可选项,当然其具体参数还可以做更多的调整,以适用于实际的需要。

Listing17.5 UCT搜索

img210

img211

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈