首页 百科知识 经济学的个体学习模型构建综述()

经济学的个体学习模型构建综述()

时间:2022-07-10 百科知识 版权反馈
【摘要】:(托马斯·勃伦纳(Thomas Brenner,供职于马克斯-普朗克的演化经济学研究组、马堡菲利普大学)的这篇文章“Agent Learning Representation: Advice in Modelling Economic Learning”原载于Max planck Institute for Research into Economic Systems papers on Economics and Evolution NO.0416,后经修改被列入handbook of Computational Economics(Vol.2: Agent-Based Computational Economics,Edited by Leigh Tesfatsion and Kenneth L.Judd),作为其中的第18章。ACE的目的就是,解释在经济代理人交往基础上的经济特征和动态变化。

(托马斯·勃伦纳(Thomas Brenner,供职于马克斯-普朗克的演化经济学研究组、马堡菲利普大学)的这篇文章“Agent Learning Representation: Advice in Modelling Economic Learning”原载于Max planck Institute for Research into Economic Systems papers on Economics and Evolution NO.0416,后经修改被列入handbook of Computational Economics(Vol.2: Agent-Based Computational Economics,Edited by Leigh Tesfatsion and Kenneth L.Judd),作为其中的第18章。)托马斯·勃伦纳摘 要:本篇综合考察了经济学文献中现有的各种学习模型。进而讨论了模型的选用:模型应匹配相应各种不同环境的问题;如何用类似的方法选择适当的学习模型。最后,对现有众多模型的运用,和各种场景下如何选取适当的学习模型,给出了建议。

关键词:经济学的学习,模型构建

1 引 言

在过去的20年间,各种不同的学习模型被用于经济学中,并且其数量的增加十分迅速。本篇文章是对这些学习模型的一个综述,并进一步地对学习过程进行了分类,给出了如何在大量的模型中进行选择的提示。

对于这样的一个回顾可以采用不同的方式进行表述和结构安排。在本文中所选择的结构基于两方面的考虑:

第一,本文的主要目的就是帮助基于代理人的计算经济学家,在进行模拟研究时选择恰当的学习模型。在给出这些建议时,我们假定基于代理人的计算经济学家试图建立尽量接近现实的行为模型。在选择学习模型中的其他一些观点将在本文第1.1节、第1.3节进行讨论。然而,本文关注的焦点是“现实学习过程的模型构建如何才能精确”这一问题。作为本文归纳的结论,则深植于心理学的研究,这是因为心理学家已经创建了大量关于人类学习的真实知识。近年来,尽管实验经济学家的确做出了关于知识的极大贡献[实验的综述见约翰·杜菲(John Duffy,2006)],但现在大部分的知识体系仍来自于心理学。

第二,大部分研究人员都认为不存在单一的普适性学习模型。不同的学习过程在不同的场景下发生[参见Duffy(2006)的实验证据]。因此,必定存在不同的学习模型。为了给基于代理人的计算经济学家在选择模型时提供帮助,必须将学习的场景加以分类,并且对每一类都应该分别给出相应的建议。尽管有多种不同的分类方式,但本文采用的分类方式是以心理学早期已有文献为基础的[参见勃伦纳(Brenner,1999)]。其基本假设是:既有在所有动物中普遍存在的固化联结(hard-wired)学习过程特性,也有仅依赖人类大脑的柔性调适学习过程特性。当然其他分类和特定的模型选择也是可能的,也值得我们予以考察讨论,详见第1.1节。

本文的结构如下:在接下来引导的部分(第1部分)里,第1.1节将讨论建立学习模型的不同动机;随后将有一个简短的历史回顾(第1.2节);最后,将在第1.3节里将讨论建立学习模型的一些基本问题,比如学习模型的复杂性和有效性,个体学习和集体学习的不同之处,以及学习模型的校准(calibration,指模型参数如何确定的问题,如选择范围、方法等——译者注)。在第2部分将展示并讨论一种学习模型的分类,识别三种不同的学习过程。随后,第3部分(无意识学习)、第4部分(基于惯例的学习)、第5部分(信念学习)将对每一类学习过程如何建立学习过程模型给出建议。第6部分将讨论一般学习模型的可能性。第7部分为总结。

1.1 计算经济学与学习

学习模型被用于计算经济学领域,主要就是基于代理人的计算经济学(agent-based Computational Economics,以下简记为ACE或计算经济学——译者注)。ACE的目的就是,解释在经济代理人交往基础上的经济特征和动态变化。因此,这些研究方法通常围绕着代理人行为的建模而展开。所以重要的是要掌握经济代理人行为方式的知识,并以合适的方法对这种行为构建模拟的模型。因此,选择学习模型的目的可能在于选择尽可能接近现实的模型。然而,在关于学习的经济学文献中,这并不是唯一目的,而且甚至不是最常见的目的。因此,要获得一个全面的认识,就必须对这些文献中出现的学习模型进行分类,并对其中最常见的目的进行讨论。

1.1.1 选择学习模型的目的

至少有四种已知的选择学习模型的方法:

第一,有人希望找到能够最佳描述真实学习过程的模型,这可以通过基于实验的研究或是心理学的知识而获得。然而,要选择最接近现实的“学习过程表达模型”(the learning model that describes learning processes),存在许多困难。因此,要选择和现实相一致的学习模型,并不那么简单。这个问题将在第1.3节中进行讨论。

第二,有人可能要寻找一些学习模型,这种模型的导出结果与已知的形态事实(stylized facts,场景分类下的各类形态——译者注)相一致,而不计较学习过程的细节(不管模型的细节是否能真实地表达学习过程——译者注)。这样的方法常被ACE所采纳,其目标为:在导出结果能够较好地拟合形态事实的前提下,尽量简化学习模型,尽量综合一些或者说尽量现实一些(不用在过程机理的理论上顶真——译者注)。如此建模有助于对给定场景中学习的最低要求的理解,这也有利于场景分类——根据个体在这些场景下所需的能力进行分类(with respect to the competences that are required of the economic agents in these situations)。然而这种方法没有给出人们如何学习的信息。研究某种学习模型能否预测和我们的经验知识相一致的动态经济学,只允许我们拒绝一些学习模型,却无法确认其他能接受的模型。能预测结果的学习模型并不一定能正确表达(descriptions of real learning processes)真实的学习过程,因为可能存在其他学习模型也同样能预测结果。有些文献会忽略这一点。

第三,一些研究人员寻找收敛至均衡的学习模型,因为均衡通常是新古典理论或其他均衡概念所预言的状态。我们不清楚的是,从这些方法(新古典理论或其他均衡概念)中能得到什么?经济环境处于不断的变化中,而学习是相当重要的,因为学习能够使人们对这些变化做出反应,而不是由于学习收敛至一个均衡。不过,在特定的情况下,均衡可能能够恰当地描述真实世界,那么寻找收敛至这个均衡的学习模型正是上述第二种可能的目标。

第四,一些研究人员的目的在于构建巧妙的甚或是最优的学习模型,甚至可能为了做出关于人们应该如何学习的陈述,去比较给定条件下的不同学习模型的表现。除了ACE这个实证目标(positive aim)之外,还有一个规范性目标(normative aim)——用于测试可供选择的经济结构(Tesfatsion,2001),以及可选的行为,例如人们可以用计算机做他们的决策。这意味着他们应该寻找最佳的学习模型,在计算机上予以实施(找到最佳学习模型),并做出决策。然而,人们用计算机来制定或辅助决策的情况仍然很少。此外,用于这些情况的模型,是那些被认为能产生最佳绩效的模型。因此建模的相关问题,并不是哪个学习模型对行为表达得最好,而是如何掌握不同学习模型的性能(这里的模型其实是指寻优算法的技术,研究目的是开发利用寻优技术——译者注)。

另外,还存在一系列的人工智能和机器学习。一般而言,近年来有一种趋势,即从其他学科中借鉴一些方法。最近几年的模型,从诸如遗传算法、分类系统、模糊逻辑和神经网络等学科中取经,变得日益复杂。在这个领域内的研究人员的目的是什么,并不总是一目了然。一些人简单地认为他们的学习模型描述了真实的学习行为,却并不考虑任何能够提供支持的证据。另外一些人着眼于创造一些表现出色的学习模型,或者说依这种模型能解决本质上只有人类才能解决的问题。最后还有人主张这些人工智能和机器学习模型是与现实(reality)相对应的。

1.1.2 学习模型的分类

分类一直是一项很有用的工作,它有助于完成实际研究任务。这里的实际任务就是为计划好的模拟研究,选择一个学习模型。给定上述设定,即选择学习模型的目的是寻找最接近现实的模型,那么我们必须思索:是否只存在一种学习过程(one kind of learning process),从而只用一种模型就足以表达了;或,是否在不同场景下存在不同的学习模式(different learning models occur in different situations)。心理学文献表明存在不同的学习过程,并向我们呈现了这些过程的相应特征。因此,心理学构建了这里所建议的分类的基础。不过,对学习模型的分类,也可以采用许多其他方法。

第一,可以根据模型提出的来源进行分类。这使我们得以区分不同来源基础的模型:基于心理学的模型,如强化学习;基于理性的模型,如贝叶斯学习和最小二乘学习;适应性模型,如学习导向理论(learning direction theory);信念学习模型,如虚拟博弈;以及由计算机科学和生物学所激发的模型,如遗传算法、神经网络。

这里讨论了对所有学习模型的分类。尽管这种分类能够告诉读者学习模型有各种来源,但它却无助于对模型的选择,也不能方便模拟描述现实。

第二,我们可以根据通常要用到学习理论的经济学领域,对学习模型进行分类。例如,宏观经济学主要使用贝叶斯学习和最小二乘学习,而强化学习、虚拟博弈和学习导向理论主要应用于实验经济学中。同时,遗传算法、基因编程常常应用于基于代理人计算的经济学中,博弈理论家似乎更偏向于虚拟博弈、复制者动态和其他适应性学习模型。然而,还不清楚的是,为什么不同领域内的经济学家使用不同的学习模型。显而易见的是,使用数学分析方法的经济学家,由于模型可处理性的需要,限制了他们的选择。其他的不同,似乎是由于历史原因造成的,所以用这种“差异”对学习模型分类进而支持这种“差异”是没有意义的。

第三,人们可能会在经济学文献中,寻找对已有学习模型的分类。然而,目前还没有任何分类法能包含这里所讨论的诸多不同的学习模型。通常只是主观地选取为数很少的几个学习模型展开讨论[如弗登伯格和莱温妮(Fudenberg,Levine,1998)]。

1.2 学习行为建模的历史

对历史的简短回顾,将聚焦于经济学中所用的数学表达形式的学习模型。然而,也有必要对心理学的学习研究进行回顾和了解,因为学习过程主要集中在心理学研究领域,而且大部分用于经济学的模型都是基于心理学的发现。此外,正是心理学家首先开发了学习的数学模型。

1.2.1 学习的心理学研究

心理学家对学习过程的广泛研究,大致开始于100年以前。那时心理学由如下观点支配:大脑内部过程是不可研究的;对行为的解释应该完全基于可观测的变量。随后,心理学家识别出两种主要的学习过程:经典条件反射和操作性条件反射。到目前为止,经典条件反射对经济学讨论几乎没有任何影响[一个例外,可参见维特(Witt,2001)],尽管它仍在心理学中被广泛研究[可参见麦坚杜治(Mackintosh,2003)的综述]。经典条件反射描述了个体在已有刺激和强化的基础上如何发展出新的刺激和强化,因此能够解释偏好的改变[参见维特(Witt,2001)]。到目前为止,这种学习过程的数学模型仅在心理学的范围内发展[参见瑞思考勒和瓦格纳(Rescorla,Wagner,1972)],而经济学文献更多关注的是操作性条件反射过程。大部分操作性条件的心理学经验研究,是在动物身上进行的。发现的一个普遍结果是:产生收益的行为在未来发生的频率会高一些;而导致惩罚的行为,则会在未来以较低的频率发生。现在,这种类型的学习过程,指的是经济学的“强化学习”(reinforcement learning)。该学习过程的第一个数学模型,是由心理学家布什和莫斯蒂勒(Bush,Mosteller,1955)构建的。

20世纪五六十年代,心理学对学习过程开始了一系列新的研究,他们研究社会互动的影响和学习的观测。基本的观点就是:人们不仅从他们自身的经历中学习,还通过其他人的经历进行学习,这意味着强化学习的概念已经转移到互动和观测上。然而,这不仅要求个体之间的经验是可以共享的,而且要求个体之间能够理解他人与自己情况的相似之处和不同之处。这时,心理学家就进入了认知领域,并且产生了所谓的社会—认知学习理论[大部分杰出的工作是由班杜拉(Bandura,1977)完成的]。

近20年来,心理学家关注的主要是认知学习过程。一般而言,认知学习指的是:对真实世界过程及其相互关系,包括相应概念含义与表征之理解的发展。现在,大部分的研究都是关于儿童认知的发展,比如,语言的学习、逻辑思考。然而,用若干方程刻画学习过程的数学形式化还很缺乏,学习过程通常由图表配合口头论证或是逻辑原理来描述。其主题集中在大脑中知识的结构发展及综合。因此,其研究远离了经济学通常关注的,与学习过程有关的,如何形成决策的研究。

最新的发展就是在认知学习过程研究中对神经科学的运用(如参见Rumiati,Bekkering,2003)。这方面的研究提供了(个体)信息处理速度的新的信息;几乎同时发生的不同激励之间的交互作用;在处理激励和类似学习活动的过程中,大脑的不同部分参与的程度。和上面的认知研究类似,这些研究对经济学的学习过程建模来说,几乎没有贡献。然而,这一点在未来很有可能会发生改变。

1.2.2 学习行为与最优化

长期以来,学习问题都只是经济学的一个很小的问题。当经济学家在学习问题上显示出了一些兴趣时,他们主要关注的是两方面问题:第一,建立规范性学习模型用于描述最优学习过程——贝叶斯学习[如伊斯力和吉弗(Easley,Kiefer,1988)及乔丹(Jordan,1991)];第二,他们发展了学习模型,其中如学习行为收敛至均衡的最优行为。有相当长的一段时间,研究学习过程的大部分经济学家,主要关注的是证明学习过程收敛至最优行为。对于这种证明的首次尝试出现于1951年(Brown,1951)。纳什均衡(Nash,1950)的提出,激起了如下问题的讨论:人们是如何变得会根据这个均衡来参与博弈。布朗(Brown)建立了被称之为虚拟博弈的学习模型,而且罗宾逊(Robinson,1951)说明虚拟博弈学习模型可收敛至纳什均衡行为[随后又被证明,只有在某些条件下才成立,参见沙普利(Shapley,1964)]。

许多学习过程建模者仍在试图证明学习过程收敛至最优[可参见布瑞(Bray,1982),尹和朱(Yin,Zhu,1990),乔丹(Jordan,1991),伯吉斯和沙林(Brgers,Sarin,1997),戴维(Dawid,1997),沙林和瓦希德(Sarin,Vahid,1999)中的例子]。通常研究者甚至认为学习模型只有收敛才是恰当的,或至少在固定场景下长期趋于最优行为的模型才是恰当的。然而由于大量实验证据的缘故,这种主张已经慢慢从争论中消失了。现在致力于研究学习模型所预测的行为何时与最优行为不同,以及它们之间如何不同的工作和研究日益增多(如herrnstein,prelec,1991;Brenner,1997,2001;Brenner,Vriend,2005)。

然而,为学习过程建模的经济学家仍然分为两个阵营:一类致力于收敛至最优行为的学习模型,另一类却对行为是否最优不感兴趣。与此相比,我们认为更重要的是,在什么情况下各种现有的模型能够最佳地刻画现实行为[类似的观点见伯吉斯(Brgers,1996)]。

1.2.3 日益增多的学习模型种类

在过去的几年内,经济学中学习模型的数量迅速增加。实验研究不断表明,由于最初的经济学学习模型与一些实验结果不符(如参见Feltovich,2000),许多在经济学中建立学习模型的经济学家,发展了他们自己的模型或者对现有模型进行了修正。这些模型大部分基于反省、常识、人工智能方法或是心理学成果,而这些几乎都是以这样或那样的特定方式建立起来的,缺乏明确的科学理由。

同时,有些方法试图在实验数据的基础上比较不同模型的适宜性(如Feltovich,2000;Tang,2003;Artifovic,Ledyard,2004)。该问题在handbook of Computational Economics的第19章进行了扩展探讨。

目前的情况是,有些学习模型已经在经济学中最具优势,而另外一些模型大体上已经被忽略了。最具优势的模型就是贝叶斯学习、最小二乘学习,以及学习导向理论、强化学习、遗传算法、基因编程、虚拟博弈以及凯默瑞和胡的学习模型。至于为何这些模型占优,存在不同的原因:这些模型能够很好地得到经验和实验证据的支持;收敛至最优行动或降低了复杂性。尽管囊括全部现有的模型及其修正版本是不可能的,但我们这里要讨论的范围还是将大于这些占优模型。

1.3 建立经济学学习模型的基本问题

如上所述,不同学习模型的存在似乎是必要的。然而我们也可以想象一下,构建一个包含了所有不同学习过程的元模型(meta-model实际上是把几种不同的模型合并成组合模型,故亦可称组合模型——译者注)。这样的模型将在本文第6部分讨论。这里,我们首先关注仅描述一种学习过程的模型。

此外,学习模型在其他许多方面也存在差异。可能复杂程度不一样——模型的复杂程度由模型中参数的个数来测度;可能是规范性的或描述性的(normative or descriptive);可能在个体层面或群体层面上描述学习;或者包含过去事件的记忆,等等。常有不同的模型,实质上都描述了同一类学习过程。因此关于如何选择模型,我们必须做出一些基本思考。

1.3.1 学习模型的有效性与复杂性

在学习模型被用于模拟(描述解释,这里称之为模拟——译者注)现实之前,我们首先必须回答,这些学习模型究竟被证实是恰当的程度如何。显然,我们希望有很强的经验证据支撑的学习模型。不幸的是,只有很少的学习模型可以提供这样的证据。应该进一步指出的是,不同个体之间的、不同场景之间的学习过程是不同的,导致同样的模型得出不同的结果。所以,我们只能接受现实的制约,就将迄今可得的少量证据用于研究。

这些证据主要有两个来源:一方面,实验研究提供了一些有关不同学习模型适应性(suitability)的信息(参见handbook of Computational Economics的第19章);另一方面,心理学文献也给出了有关学习机制和环境方面的信息。我们的立场是:不使用与实验研究[就所考虑的场景(situation)而言]相悖,或是与心理学知识相悖的学习模型。然而,这个观点可能会在两方面受到质疑:

首先,某些计算研究(computational studies)假设分析某种学习的因果关系,而不是研究这种学习在实际中是如何发生的假说。如果研究的目的本质是上规范性的,即试图寻找或设计出最佳学习行为,那么这就是一个有效的方法。而如果目的是描述性的,那么就应考虑场景问题,因为使用非现实的学习模型会导致错误的推论。

其次,一些研究人员认为,他们研究的主要目的不是识别特定学习过程的意义,而是分析特定的复杂场景,学习之所以被囊括进去,仅仅是为了表征行为的基本动态(basic dynamics of behavior)。可以认为,在这种情况下如何选择学习模型关系不大,然而,只有当不同的学习模型预测出相似的行为时,才无需计较模型的选择。这只对某些学习模型和场景成立,并不具有普适性(即如何选学习模型不是无所谓的——译者注)。在各种各样的场景下,不同的学习模型预测出的行为相互矛盾,因此,学习模型的选择,可能对于研究结果意义重大。

不过在许多情况下,的确有些学习模型可能会推导出相当类似的预期。但关于其适应性的经验或实验的证据很少,这使得模型的选择相当困难。因此,我们要做的第一步可能就是排除掉所有被基于心理学知识或实验证据拒绝的模型。这之后,可以通过简化从剩余模型中进行选择。例如,拉帕波特、史奥和温特(Rapoport,Seale,Winter,2000)声称“首先应该实验最简单的模型,而要求较高认知水平的模型,只应该在第一次失败之后再尝试”。这意味着,我们应该采纳最简单的、不会被实验证据和心理学知识否决的模型。

因此概括起来,有三项选择标准:实验证据、心理学知识,以及简单性。研究者对这三项标准的优劣的评价各有不同。因此,有必要进行一些讨论。

实验证据 评估现有学习模型的第一手资料,来自现有实验的和经验的研究。关于学习的经验研究非常少,而杜菲(Duffy,2006)展示了现有的评价学习模型的实验研究。非常清楚的是,如果一项研究的目的是描述性的,那么应该选择适合于表征真实行动的学习模型。在判断学习模型的有效性上,实验研究十分有用。前面指出了我们应该避免使用那些被实验证据否决的模型,不过,这里还有两点需要讨论。

第一点值得讨论的是,实验室的情境能在多大程度上与现实生活的情境相比拟?实验场景通常是人造的,而且通常是剥离出的一个孤立的环节,不带任何前因后果的环境背景。因此,一些研究人员认为实验场景是不现实的。然而,也有观点认为:能够充分描述真实学习过程的学习模型,同样也能够适合于描述实验学习过程,因为在这两种场景下,使用的是相同的认知装置(大脑)。不过,学习过程中也可能存在很大的不同。本文要指出的是,存在不同的学习过程,比如无意识学习和有意识学习的过程。因此,可能是这样一种情况:现实中和实验室中,某种类型的学习过程发生的频率,存在着很大的不同。例如,由于在现实中我们没有时间对做出的每一个决策进行思考,因此无意识学习发生的频率较高。比较而言,大部分的实验,强迫参与者思考自己的决策,从而在实验中,有意识的学习过程似乎是占主导的。因此,我们认为,同样种类的学习过程在实验和现实中都会发生,但是其相对重要程度可能会存在差异。

这就导致了第二点:使用实验室成果应该十分谨慎。所有实验研究只能考虑有限的若干种场景,而我们知道,不同场景下的学习过程存在差异。因此,实验研究的结果,只能转换到其条件与现实条件足够相似的场景中才能运用。在缺乏实验研究——根据最适宜的学习模型来对场景进行分类的情况下,那么要有多相似才算“足够相似”是难以确定的(这方面问题将在以后讨论)。进而需要注意的是,实验中经常会出现明显的人造场景,对这种情况造成的影响必须加以考虑。

然而我们相信,从长期来看,实验将成为评估各种现有的学习模型,以及支撑学习模型进一步发展的主要方式。现在还没有足够的该类型的学习模型,因此,实验证据仅就学习模型的选择提供了某些帮助。将来还有必要做进一步的研究,其中最重要的任务是,必须进一步研究场景的分类、学习模型和场景之间的关系。本文将讨论一种初步分类(a primary classification),并借助实验研究对这种初步分类进行检验、精炼和修正,这可以极大地改善经济学的学习模型。此外,这些实验研究也应该考虑到这一事实:即使在相同的场景下,个体的学习过程也是不同的。

模型细节的恰当性 在心理学文献中,存在着大量的学习过程细节的知识。这些知识可用于评估学习模型。不过有人可能认为,在经济学里面,我们并不关心如何对学习过程的细节建模,我们所需要的,是能够有效地描述结果行为(the resulting behavior)的模型。但是,与学习心理学研究相悖的模型,也仍然可能预测出结果行为。大多数时间里,基于代理人的计算经济学家,只关心学习过程在经济过程中的意义。

然而,正如前面所讨论的,目前依然缺少不同模型预测有效性的证据。由于缺少实验的和经验的证据,对学习过程的恰当表征,可能是学习模型评估中的一个不错的可选标准。和心理学研究相一致的包含学习过程细节的模型,与和心理学研究相悖的模型相比较,前者更加令人信服。

我们的结论是,心理学中关于学习过程的研究花费了大量的力气研究细节,增加了模型的复杂性。因此,在充分表征所有学习细节和简化模型之间存在着一个平衡(这个平衡将在第1.4节中讨论)。

模型的简单性 许多经济学家倾向于使用简单的行为模型,新古典经济学的最优化模型就是一个很好的例子。同样的,在经济学研究领域中,规则清晰、参数较少的模型,使用频率最高(例如,强化学习、最小二乘法学习、贝叶斯学习和虚拟博弈)。简化的学习模型存在很多优势。

首先,参数越多的学习模型需要越多的实验证据和经验数据来估计这些正确的参数。如果没有充足的实验证据和经验数据,那么通常模型的参数越多,预测就越模糊。其次,较简单的模型易于解释。再次,有人主张,经济学无需关注学习过程的细节,只要着眼于经济体的组织、运转和动态变化,因此只要能够抓住学习过程基本特征的简单模型就足够了。

然而,有人可能倾向于更加复杂的学习模型。第一,心理学的研究表明,学习过程是复杂的。缺乏能够精确描述实验行为的简单学习模型,这一事实就是学习过程复杂性的另一个证据。第二,计算机技术的进步,使得采用模拟方式处理复杂模型变得简单起来。即使十分复杂的学习模型,也可以模拟带有大量参数的运算,因此可以研究不同参数值对模型的影响。

当然,更复杂的模型需要付出一些额外的努力。因此有必要在所需的努力和模型的精确性之间进行权衡。在很多经济学场景中,如市场,选哪个特定的学习模型对分析结论并不重要。然而,同样也有一些场景——如囚徒困境——不同的学习模型预测的结果存在巨大的差异(Brenner,2004)。学习模型设定的微小细节,可能会对这种场景下预测的结果产生很大的影响。因此,在某些场景下,使用简单模型而导致的恰当性的损失可能是十分小的,从而没有必要使用复杂的学习模型。而在其他情况下,使用简单模型可能会导致重要细节的丢失。到目前为止,关于各种场景究竟属于前一种类型还是后一种类型,我们所知甚少。若一场景有明确的均衡点,且其中个人最优与社会最优不矛盾,则简单模型似乎足矣。而一般涉及策略思考和混合激励的场景,简单模型的描述就不那么令人满意了。

我们再次强调,上述讨论说明,依所采取的学习过程(the learning processes implemented)对场景进行分类是十分有用的。这样一个分类目前还不存在,我们希望未来有更多的研究人员能对此作出贡献。现在每个模拟研究者都必须自己做出决策:究竟使用简单的还是复杂的学习模型。

1.3.2 个体学习与群体学习

学习过程建模的一个重要方面就是建模的层面。在哪一层面上建模,有两种选择:或者对每个个体的学习过程分别建模;或者将个体学习过程对群体行为的影响放在总体表征的层面上建立模型。[在遗传算法中有关个体学习过程对群体行为影响的讨论(Vriend,2000)]

心理学文献几乎仅限于探讨个体学习过程,而学习的经济学文献则提供了描述个体行为的更多类型的学习模型。不过在近几年的文献中,已经有大量的学习模型被用来描述个体学习对群体行为的影响。同样,我们也可以找到支持这两种选择——学习建模的个体层面与群体层面——各有千秋的论据。

建立在群体层面上的学习模型,便于我们对学习过程进行数学处理。在群体层面上建模并假设群体无限大,这就消除了分析中学习的随机特性。从而,我们对由此得出的学习过程可以方便地进行分析处理。群体层面学习过程的分析也常用于实验研究。在群体层面考查行为,允许我们忽略个体间的差异。类似地,描述群体层面学习的模仿学习模型,可以略去学习过程中的若干细节。通常,群体层面的学习模型比较直接,因为只需考虑学习的基本动态特性。这使得群体层面的学习模型在这种情况下十分具有吸引力,即建模者只需关注由许多个体组成的经济体中学习过程的含义。

然而,当学习过程的细节和个体间的差异确实很重要时,忽略细节及个体间的差异会带来一些风险。在有些场景中,比如市场,个体学习过程的精确特征对结果的动态性是不重要的。但在有些场合,各种学习模型会产生各种不同的预测,这就可能导致错误的结果。认识到这一风险,在仿真法中个体学习模型才特别受欢迎。在仿真法中,模型的结果不至于受到学习过程复杂性的影响。

一种可供替代的方法是考察亚群(sub-populations),即把人们划分为异质性群组(heterogeneous groups),每个组内的个体特征相同。这种方法只考虑个体间的部分差异,因此,将场景描述为人彼此都是有差异的,且将个体间所有局部差异都考虑进去的建模方式,就是不可能的了。这代表了一种研究异质性影响的折中方法。

总之,关于学习过程的建模应该选择个体层面还是群体层面的问题,也可以采用类似“恰当复杂性”问题的权衡思路。群体层面建模简化了一些事情,而个体层面建模则提高了精确性。这样,待研究的场景决定了需要何种程度的精确性,即相对群体层面模型而言,个体层面模型的精确性应考虑到何种程度。在一些场景下侧重个体层面提高精确性是不值得的,而在另一些情况下收益极大。因此这取决于对场景的判断,看看就个体建模花费努力是否必要。

1.3.3 学习模型的参数校准

大部分学习模型包括很多参数。因此,一旦研究人员选择了一个学习模型,那么该模型的参数都须随之进行相应的调整。就模拟仿真方法而言,这一点尤其重要。在仿真方法中,每一个仿真都只能选用一组特定参数。不幸的是,学习过程的经验和实验文献,几乎都没有提供关于各种学习模型参数的信息。此外,实验研究中也很少考虑可能的个体之间的参数差异。现在还无法获得有关各种学习模型全面的、或足够的参数信息。

如何处理该问题,取决于研究目的。模拟的方法通常被用于研究经济动态中的基本关系。这种研究的目的不在于精确地反映现实,而是表征经济动态变化的一些基本特征,并揭示这些特征如何与人们熟知的形态事实(stylized facts)相关联。对于这样的研究,参数选择的精确性是不重要的。这时采用与现实大致近似的参数值,或使用各种参数并检查它们是否影响研究结果就足够了。

如果模拟方法被用于揭示真实过程,或者需要掌握学习过程的详细知识,那么情况就不同了。在这种情况下,我们认为对每个参数都要确定一个范围。这样,建模者就清楚真实值是否就在这个范围之内。需要重视的是,经验知识可用于缩小参数范围。为了确定模型的含义,在这些范围之内,必须对所有的参数组合进行分析。蒙特卡罗(Monte-Carlo)方法适用于这种情况[参见沃克和勃伦纳(Werker,Brenner,2004)对这种方法的详细讨论,以及勃伦纳和默曼(Brenner,Murmann,2003)的应用]。如果可以获得学习过程输出结果的经验数据,那么就可以用贝叶斯方法进一步缩小参数范围,或对每个模型的组合设定参数赋予一个似然率。(Zellner,1971;Werker,Brenner,2004)这是一种劳动密集型方法,而且需要大量的计算时间。然而,这增加了结果的可靠性。即使第一类模拟方法,即研究基本关系和熟知的形态事实,也可以从基于经验的模拟方法中受益。

另外,进一步详细的实验研究肯定有助于方法改进。这里的实验研究并不只是比较学习模型,而是同时也识别各种描述行为之学习模型的最佳参数。一系列这样的研究,可以使模拟研究者获得有关学习模型参数的知识,并对所有建立学习模型的研究人员有帮助。未来很可能有更多的这种类型的实验研究。

2 学习过程分类

现在,从经济学文献中可以找到大量的学习模型。通过某些方式对模型进行分类是有益的,当然,分类的方式是多样化的。本文的目的就是建议并且帮助经济学家为其研究选择学习模型。如果一个研究人员试图去建立接近现实的学习过程模型,那么首先必须确定行为人采用的学习过程是什么类型,随后选择一个恰当的学习过程模型。即可以采取如下步骤:决定在被研究的场景下,哪种类型的学习过程会发生,然后选择一个恰当的学习模型。

本文采用以下的结构安排:首先,讨论现有的学习过程类型,以及它们是在什么情况下发生的;其次,描述并讨论适合于每种学习过程的学习模型。

2.1 学习过程的多样性

现在还不清楚,是否存在不同的学习过程,或者在大脑内是否有基本的机制,可以用来解释学习的方式。然而,到目前为止,神经生理学和认知心理学都还没有发现这种基本机制,因此,学习方式只能在经验观察的基础上构建。此外,没有把所有的学习过程建立在同一个基本机制上,可能在技术上是有利的。通常更为简单的是,基于其导致的行为上的改变来描述学习过程,而不是探讨可能极为复杂的认知过程(cognitive processes)的互动。

因此,我们正在寻找有助于我们决定在特定情境下适合采用哪类学习模型的信息,而非寻求其他能描述所有学习过程的且在每一种情境下都适用的最佳学习模型。实际情况是,现在没有这样的模型,而且是否真的会有这种模型都是值得怀疑的。

在寻找合适的学习模型和场景特征之间的匹配时,我们并不在意如下问题:一个模型是否具有便于在给定场景下使用的结构特征。我们更加关注的问题是,一个学习模型是否描述了实际发生的相关过程。因此,我们不得不回答这样一个问题:现实中是否存在各类具有不同特征的学习过程,它们是如何发生的。

2.1.1 两种学习方式

尽管有关学习的心理学文献区分了三种不同类型的学习过程(因历史的缘故),但其实只有两种本质上不同的学习方式。首先,人类和其他动物共享一种通常被称之为强化学习的简单学习方式。此类学习似乎是生物上决定的:如果一个行动导致了负的产出——惩罚,那么该行动在未来会被避免;如果一个行动导致了正的产出——奖赏,那么该行动会再次发生。大约在100年前的心理学中,此类学习过程已经在不同类型的动物中广泛研究。这类学习并不包括任何对场景的有意识反省。因此,人们并不总是能够意识到他们自己在学习。

除强化学习以外,人类能够反省他们的行动和后果。我们能够理解支配我们环境和生活的机制;我们能够给客体命名,并建立用于描述他们互动和本质的因果关系。现在,这主要是心理学名义下的研究,即认知学习。

这两种学习是完全不同的。我们认为——不过还没有任何经验证据——强化学习以一种自动和连续运行的方式进行,随后,无论人们做什么都在一瞬间由强化学习决定。人类似乎被赋予了和动物相同的基本机制,并且因而根据相同的、强化学习的固化联结(hard-wired)原理学习[很多关于动物实验的文献,可以参见桑戴克(Thorndike,1932)和斯金纳(Skinner,1938)]。

然而,人类能够反思自己的行动和这些行动的后果。这需要主动积极的思考以及非常稀缺的认知资源。也正因为这样,人类不能够反省人类所有的行动。想象一下如果人类需要考虑每一块肌肉的每一次牵动,那么人类就不能够像现在这样生活。然而,如果人类在意某一个动作,人类就能摆脱强化学习的规则。所以,我们认为,认知学习对行为的作用要强于强化学习。但我们还认为,人类不具有能够反省人类所有行动的认知能力,因此,大部分行动是基于强化学习指导的。如果建立学习过程的模型,我们就必须知道发生了什么类型的学习。关于这一点,将在下面详细介绍。

2.1.2 学习过程的进一步区别

我们对强化学习[或如心理学家原先命名的条件作用(conditioning)]已经有了很好的研究和理解,而对有意识的学习过程却难以把握。在心理学中仍然存在各种不同的学习模型,而且关于在大脑中信念形成的详细知识仍然是缺乏的。因此,有一种研究倾向:忽略大脑的精细工作,通过经验和实验观测建立一些基本的学习机制模型。

这些模型对学习采用了机械论观点:假设人们根据固定的机制或者惯例学习。因此,我们称由这种模型描述的学习过程为基于惯例的学习。例如有这样的惯例,初到国外的人会对当地人进行模仿,这样他便很快了解当地的传统并调整自己的行为。然而,有意识的学习远不止是简单地模仿他人行为。有意识的学习通常意味着行为人理解为什么这种行为是有利的,这种行为是如何形成的以及适合它的环境是什么。这说明,行为人将意义和他的观察联系在一起,并建立关于联系和未来事件的信念。为了将这些过程区别于简单的基于惯例的学习模型,它被定义为“联结学习”(associative learning)(Brenner,1999),或是“信念学习”(belief learing,和经济学文献一致的常用术语)。

所有的有意识学习都是信念学习,因为只要人们反省了他们所遇到的场景,尝试了适当的行动,那么他们就对自己搜集的信息赋予了意义,并形成关于联系和未来事件的信念(这些过程将在第5部分详细讨论)。基于惯例的学习是真实学习过程的一个简化,这种简化可以在许多情境下应用,并且使得研究人员的工作更加轻松。

为了解释基于惯例的学习模型和信念学习模型的差别,我们假设大脑中存在两个认知层面。尽管这并不正确,但这种区分有助于勾勒这两种类型学习的差别。假设较高的认知层面包含对每一类型场景的基本理解。接着我们设想:一个股票市场投资者,他相信技术分析(chartist)策略是这种场景下最合适的。那么较高的认知层面会包含该投资者的曲线作业分析的预期(算法)。该预期(算法)随后被用于处理关于某项资产的引入的数据信息。这种(依算法)对引入数据处理的学习过程在较低认知层面发生,给出每项资产未来发展的预期。理论分析中,不同的学习过程可以通过这两个层面区别。通常较高认知层面不会随着新信息而改变,并可以充分地描述发生在较低层面的(认知)学习过程。这使得建模较为容易。我们可以以基于惯例的学习过程的形式,简单描述投资者的技术分析行为。

然而在股票交易时,如果投资者处理信息时要考虑所有策略的不同适用性,并去获取各种可选策略的话,就可能导致策略的改变。随后他们可能转而采取基本面分析(fundamentalist)行为。那么,基于惯例的学习模型将无用武之处。这就可能需要构建一个对模型描述较高的认知层面的改变,这也意味着惯例通常被定义在较高的认知层面。因此,就有了如下问题:什么是较高认知层面和较低认知层面的有意识学习?不幸的是,对于较高的认知层面和较低的认知层面的选择似乎十分武断,事实也是如此。

这就使我们回到所有有意识学习都是信念学习的基本论断上。任何学习惯例或机制的定义,只可能根据简化分析的事实来证明。正确的方式就是建立信念学习过程的模型,尽管正确的方式不一定总是恰当的方式。当我们不了解如何对信念学习过程建模时,这一点尤其明显。然而,在使用基于惯例的学习模型时,我们应该记住它们只是近似地表达这种学习方式。

2.2 场景特征和学习

在文献中,一个十分重要的话题很少被提及,即什么样的学习模型适用于什么的场景。上文区分了三种类型的学习:无意识学习、基于惯例的学习,以及信念学习。进一步,可以认为基本就是两种学习过程:无意识学习和信念学习,而基于惯例的学习过程表示为一个简化的信念学习。因此,第一个需要回答的问题就是,什么时候无意识学习和信念学习在现实中发生。接着第二个问题是,什么时候信念学习可以大致近似于基于惯例的学习模型。

2.2.1 无意识学习与信念学习

正如上文所述,无意识学习似乎是一个固定编码过程(hard-coded process),发生在许多(如果不是全部)动物中。在经济学领域中的例子是情感性购物、默会知识、直觉,以及企业内部或企业之间相互来往的惯例。相反,我们通常不会仅凭冲动就购买汽车或房子。人类能够反省自己的行为并建立与相应后果关联的模型。这种有意识的学习看起来似乎能够消除无意识学习的后果。

由此可见,无意识学习一般只有在有意识学习不发生时才起支配作用。因此,上述考虑简化了何时发生有意识学习的问题。有意识学习需要个体关注并反省自己的行为。所以,有意识的学习需要花费时间和具备认知能力。

在正常的一天中,我们面临大量的、具有不同程度重要性和难度的决策任务,其中大部分的决策是没有花一点心思就自动做出的。一个明显的例子就是,在道路的左边或右边开车。在一个熟悉的地方,这是一个无意识的决策,然而,大部分人却在国外经历了这个“无意识的行为”,那里的人开车时靠路边的位置是相反的。

存在这样一种机制,用于决定什么样的决策和行为要启动有意识反应。文献中并没有关于这种机制的研究。因此,我们只可以推测它的机能。一些推论似乎是明显的。对行为的有意识思考,受到这一思考所需时间的制约。此外,存在某种激励,使得有意识的思考更有可能。最后,会出现适应性的反应减弱(habituation)。所谓反应减弱,总体说来是指一旦个体对某种情况进行了有意识的思考,并且得出结论,那么个体通常重复同样的行动,而并不进行更多的思考了。个体趋向于成为行家(specialists),聚焦于特定领域,如某种消费物品或闲暇活动,而这些领域并不一定是其生活中不可或缺的[参见维特(Witt,2001)对这一过程的一个综合讨论]。

一般我们认为,人们将认知时间花费在他们个人认为最需要思考的那些行动和决策上,所有其他的行动都是无意识学习的结果。有几种场景提供了明显的、能够引起有意识关注的动机:

 在个体尚未建立可依赖规则的新场景下,做出认知的努力是值得的,因为一个武断的选择,可能导致糟糕的结果。然而,在许多新场景下,个体会利用来自类似场景下的行为惯例。因此,对于“新”这个字,不得不做谨慎的处理。通常个体不能够根据场景的客观逻辑或是理论结构对场景进行分类,而是根据他们自己的认知理解,对情况进行必要的分类。如果根据这种认知理解,一个场景和其他的任何场景之间没有关系,那么这个场景在主观上就可以认为是新的。在主观的新的场景下,个体很可能会更加依赖于认知。

 不满是使个体对一个场景进行认知的强烈动机。当重复面对导致不满意结果的场景时,个体被驱动改变他们的行为。最终,他们专注于这个场景,并且有通过认知来反思这一场景,试图改善他们的绩效。在这种情况下,抱负水平的作用十分重要。

 由于个体的个人原因,某些场景和决策被认为是重要的,比如个人自豪感、审美渴望或是和个体生活的相关度。这些因人而异的动机可以解释个体之间极大的行为差异。

这三类能引起个体注意力的场景有一个共同点,表明了能够识别有意识学习的普遍规则(由每一类有意识学习场景都可以看出):之所以相应场景能引起个体的注意,是因为这些场景下的结果令人不满意或以一个很高的概率预计为不满意,一个例外就是上面所提及的个体差异。

从而我们可以这样认为:一般的,无意识学习是行为改变的正常路径。个体通常不关注其所面对的重复场景。有意识的关注,是由不满意或预计不满意的结果导致的。尽管这一假设是对上述因素分析的理论抽象,但是这提供了一个对学习过程分类和选择描述学习过程模型的可靠基础。在建模者处理一个对个体而言重要的或是新的场景时,个体很有可能会有意识的学习。这种情况下可选择有意识学习模型。如果建模的场景对于经济人而言并不重要,那么假设他们为无意识学习是适当的,应选择无意识学习模型。

然而,关于上述内容的简化,必须注意在个体重复面对一个场景的期间,应该区分两种无意识的过程:一种可能起源于无意识,并进一步由无意识来指导,直至遇到一个不满意的结果;另一种,过程可能源于有意识,并进一步的由无意识来指导。在行为是无意识习得的情况下,当被问到其中原因时,个体只能回答“我从来没有真正的思考过这个问题”。这个回答发出了一个信号,即这些行为是由无意识过程习得的。在行为是有意识习得的情况下,只要个体发现了一个满意的行为,他们可能就会转移他们的认知注意力到其他场景。随后,原场景下的行为将服从无意识学习,因为该行为被重复选择,只要该行为是强化性的(令人满意的),就会被进一步确定下来。个体习惯性地重复行动而不反思他们的行为。然而,如果结果被发现是不满意的,那么有意识的注意力通常将重新转移到该场景。

2.2.2 基于惯例的学习vs信念学习

在两种有意识的学习模型——基于惯例的学习和信念学习之间的选择,要更加困难。正如上文提及的,基于惯例的学习模型并不能用于描述一个真实的学习过程,而只是信念学习的一个近似。因此,问题并不在于这两种学习过程在什么场景下发生,而在于什么时候基于惯例的这种近似能够有效描述真实学习过程。

基于惯例的学习模型通常基于对学习的经验或实验观察。这些模型将学习过程简化为一个或少数几个主要特征,观察这些特征并不需要真正知道在大脑中决定学习过程的真实活动进程。模仿模型就是一个例子,模仿模型假设人们观察其他个体的行动及由此导致的结果(the resulting outcomes),随后选择具有最佳绩效的行动,或进行虚拟博弈。在最初的虚拟博弈模型中,假设人们观察到其他局中人的行动,并且预期他们未来会以相同的频率来采取这种行动。

这些例子帮助说明了基于惯例学习模型的优点以及局限性。模仿模型和虚拟博弈都漏掉了部分有意识学习过程。漏掉的这个部分可称之为对场景的理解。如果我们模仿其他人,那么我们并不只是模仿具有最佳绩效的行为,我们通常也构建了一个关于为什么他们完成得最好的主观理解。这包括在场景改变或者被观察对象的个性不同(于观察者自身)的情况下,采取不同行动的可能性。类似地,如果我们在博弈中与同一群个体重复打交道,那么我们就不仅要计算他们行动的频率,同时我们也会构建一个关于其他参与人行动次序的理解,尽管这种理解是主观的。

不过,在某些情况下,构建深层面的理解,并不会完全地影响行为。比如,如果所有人都坐在同样的多手柄吃角子老虎机(multi-arm bandits)面前,并且都希望最大化他们的利益,那么他们并不需要对场景有多么深的理解,人们将模仿具有最佳表现的手柄(arm)选择,也可能尝试一下其他手柄。在这种场景下,对大脑中过程的精确建模,将是非常复杂的。

因此,是否使用基于惯例的或是信念学习模型的问题,是与使用复杂的较真实的模型,还是使用简化的更近似的模型讨论相关的。(参见1.3节)此外,这个问题还和模型的有效性讨论相关。在基于惯例学习模型的领域,存在大量可获得的支持它的证据,而在信念学习领域,看来尚未发展出完全令人信服的模型。因此,使用基于惯例的学习模型比较诱人,在这里将单独进行讨论。然而,任何使用基于惯例学习模型的人,都应该注意到这样一个事实,即模型仅仅是真实学习过程的近似表达。此外,文献中有各种基于惯例的学习模型,重要的是要选择最合适的。

3 无意识学习模型的构建

根据本文提出的分类,所有个体没有意识到而发生的学习过程,都可以称为无意识学习。在心理学上需要识别两个学习过程:经典条件和操作性条件[classical conditioning and operant conditioning,后者也称为强化学习(reinforcement learning)]。如上文所述,这里的讨论限于强化学习过程,因为经济学文献中很少涉及经典条件[关于经典条件建模的一个讨论,可参见勃伦纳(1999),第3章和第5章]。然而,仍需提及的是,如果我们将无意识学习和强化学习等同起来的话,那么我们就偏离了传统心理学关于强化学习的观点。在心理学中,强化的建立是在行为主义占主流的阶段,这意味着如果模型要明确地表征认知过程内在机能的话,那么这种模型就会被主流心理学家斥为纯粹的臆测,因而是应该避免的。因此,行为主义心理学家们发展了把决策视为可见过程之结果的学习过程模型,即刺激反应联系。然而,这些模型并没有排除其背后存在引起外显行为改变的认知过程的可能性。行为主义心理学家只是坚持这些认知过程不应被明确地包括在模型中。

正如这里所定义的那样,无意识学习仅仅适用于没有发生认知反省(cognitive reflection)的学习过程中。我们这里所得到的推论来自于这样一个事实:大部分条件反射的心理学研究都是基于动物实验的,而“动物主要是进行非认知学习(non-cognitively)”的。因此我们认为强化学习模型应该适用于人类的非认知学习过程建模。心理学上经常有观点强调:个体即使没有对场景做出反射,他也是通过强化来学习的。(如:Biel,Dahlstrand,1997)

强化学习基于各种可能行动的一个初始行动频率分布(frequency distribution)。初始频率分布的由来需要通过其他领域的研究才能得到解释,因此大多数文献就可以略而不提了。如上所述,在某些情况下,行为的频率分布来自于此前对该场景的有意识思考。在其他情况下,最简单的假设就是均匀分布,这也是文献中最常见的处理方式。

强化学习意味着行动是根据当期频率分布随机选择的。如果一个行动导致了奖赏(正产出,positive outcome),那么未来行动中这个行动的频率就会增加。如果一个行动导致了惩罚(负产出,negative outcome),那么这个行动的频率就会下降。

根据上述讨论,只要个体没有意识到他们正在学习的事实,那么采用描述强化过程的模型就是合适的。通常就是这样一种情况,即如果他们觉得决策并不重要,或他们的行为调适甚佳的话,那么他们将在该场景下付出最小的认知努力。当一个经济学家试图对此进行建模时,下一个问题就是将使用哪种学习模型。

3.1 现有模型

经济学通常使用三种模型来描述强化学习,即Bush-Mosteller模型、改善原理(principle of melioration)以及Roth-Erev模型。这三个模型都很好地抓住了强化学习的主要特征:能带来相对较好结果的行为频率将增大;若将强化移去(好结果不复出现),则相应行为也将逐渐消失。所有这些模型都得到了心理学关于强化学习的研究启发。然而就像上文讨论的那样,无意识学习和强化学习并不是一回事。因此,须从心理学文献出发,在这里检查是否所有可得的模型事实上都描述了无意识学习过程。

这三个模型在细节上存在差别:改善学习就假设学习过程是基于过去各次行为的平均经历;而Bush-Mosteller模型和Roth-Erev模型则假设每一时点上的行为改变,唯一地取决于当前行动的结果。因此Bush-Mosteller模型和Roth-Erev模型只要求个体存储各种可能行动的当前频率分布,而改善学习则要求个体记住当前和过去事件的发生频率。此外,改善学习还要求个体去计算平均值。赫恩斯坦(herrnstein)根据实验观察,发展出了改善学习原理(herrnstein,1970;herrnstein,prelec,1991)。然而,考虑其实验室设定,一些行动可能是有意识的,就像前面所讨论的那样。因此改善的概念看起来更适合基于惯例学习的模型构建——这将在后面详细讨论,而不太适合对无意识学习建模。

将Bush-Mosteller模型和Roth-Erev模型并列起来,可能会看到它们具有一些相同的基本结构。Bush-Mosteller模型建立于1955年,是由心理学家根据操作性条件的心理学知识构建的[参见布什和莫斯蒂勒(Bush,Mosteller,1955)]。大约20年后,克罗斯(Cross)将其推广到经济学中[参见克罗斯(Cross,1973,1983)]。亚瑟(Arthur,1991)通过允许学习过程中存在不同的学习速度,将该模型一般化,并将之称为“参数化学习机”(parameterized learning automaton)。亚瑟模型包含两种极端情况:一是常数的学习速度,另一个是双曲线下降的学习速度。前者情况与Bush-Mosteller模型一致,而后者就是Roth-Erev模型的早期原型。亚瑟构建了一个十分灵活的模型(Arthur,1991),并讨论了不同学习速度的意义。然而,所有的这些发展,在经济学中并没有引起足够的关注,直至得益于罗斯和埃里夫在经济学中对强化学习的重建工作。

Bush-Mosteller模型和早期Roth-Erev模型的最主要区别在于不同的学习速度,关于这一点,亚瑟早已讨论过了(Arthur,1991)。Bush-Mosteller模型中,学习速度为常数,这就意味着:已经历过某一场景的个体,再次经历该场景的应对方式将会和没经历过的个体应对方式相同。而早期Roth-Erev模型假设:随着经历增加,学习速度沿双曲线收敛于0。心理学研究描述了自发恢复的情况(Thorndike,1932),即:如果曾经因结果不佳而被抛弃的行动又重新在个体经历中导致了正产出,那么,这些行动很快就会被再次纳入到个体的行动选项中。

第二个区别是,Bush-Mosteller模型可以处理负支付的情况,而Roth-Erev模型和“参数化学习机”只能用于正支付。早期心理学研究已表明,强化学习对于正产出(奖赏)和负产出(惩罚)具有不同的特征。Bush-Mosteller模型能够抓住这些效应并相应给出不同预测(Brenner,1997)。

3.1.1 Bush-Mosteller模型

20世纪初,强化学习变成了心理学的核心话题(与之前相比)。这最终导致布什和莫斯蒂勒构建了数学形式的学习模型(Bush,Mosteller,1955),该模型基于艾斯特斯的思考,是艾斯特斯迈出强化学习数学表达的第一步(Estes,1950)。此模型基于这样一种观点:由概率向量p(t)(=(p(a, t))a∈A)给定行为模式的频率分布来表征行为。该向量对每一可选行为a(a∈A)在每一时刻t分配的概率为p(a, t)(0≤p(a, t)≤1, a∈A p(a, t)=1)。有时将a行为在t时刻发生的概率p(a,t)称为习惯强度(habit strength)。Bush-Mosteller模型是一个预报行为模式出现概率的随机模型,而非刻画行为模式本身。

在学习过程中,概率向量p(t)依强化理论随t变化。布什和莫斯蒂勒仅仅区分了奖赏和惩罚两种结果,但对两类情况都未考虑其中的强化特征。克罗斯通过回答如何处理不同强度的奖惩问题,进一步发展了Bush-Mosteller的模型。(Cross,1973)他将该模型置于经济学背景下,通过对事件带来的效用增大以界定一个事件的强化特征。为此,他假设事件后果的影响(指行动或场景的后果对个体强化的影响)随效用单调递增。不过这样一来,克罗斯也就排除了事件的惩罚特征,因为依经济学,效用可以线性变换,于是可避免处理负效用且不失一般性。他忽略了个体在遭受惩罚后果的场景与在得到奖赏后果的场景下强化学习运转方式的不同。因此在强化学习中,激发学习的究竟是奖还是罚,是至关紧要的。

Bush-Mosteller模型的克罗斯版本的缺点,已经被Brgers和Sarin(1997),以及Brenner(1997)的工作克服了。Bush-Mosteller模型的这个版本被称为广义Bush-Mosteller模型,最适于无意识学习过程建模,将在下面介绍[完整的模型讨论参见Brenner(1999),第3章]。强化的强度是以这样一种方式定义的,即所有奖赏后果均被正强化强度反射,而所有惩罚后果都被负强化强度反映。除了这一点之外,广义Bush-Mosteller模型和克罗斯版本是一样的。若一系列可能的行动a(a∈A)之中在时刻t出现的是行动a(t),且导致了强化强度(t),则个体采取各行动a的概率p(a,t)之变化由下式给定:

p(a, t+1)=p(a, t)+

ν((t))·(1-p(a, t)) 如果, a=a(t)

-ν((t))·p(a, t)如果, a≠a(t)(1)

若出现行动a(t)导致的是负强化强度(t),则个体采取各行动a的概率p(a,t)之变化可表示为:

p(a, t+1)=p(a, t)+

-ν(-(t))·p(a, t) 如果, a=a(t)

ν(-(t))·p(a, t)p(a(t), t)—1-p(a(t), t) 如果, a≠a(t)(2)

其中函数ν()关于(>0)单调增,且ν(0)=0,0≤ν()≤1。强化强度=0可以理解为个体希望达到的水平[正如Brgers和Sarin(1997)的工作]。

通常,ν()使用线性表达式ν()=ν·,因此学习过程可以描述为:

p(a, t+1)=p(a, t)+

ν·(t)·(1-p(a, t)) 如果, a=a(t)∧(t)≥0

ν·(t)·p(a,t)如果, a=a(t)∧(t)<0

-ν·(t)·p(a,t)如果, a≠a(t)∧(t)≥0

-ν·(t)·p(a, t)·p(a(t), t)—1-p(a(t), t)如果, a≠a(t)∧(t)<0(3)

所有版本的Bush-Mosteller模型都假设,结果只在其发生的那一时刻影响频率分布p(t)。这意味着个体没有记住以前的行动及结果。过去的经历被暗含在频率分布p(t)中,学习被假设为一个马尔科夫过程。

这个模型只可以应用于个体必须在有限个可选行为中进行重复选择的情况,而不能用于个体不得不在比如像价格这样实际价值(real value)面前进行选择的情况。就实际价值进行选择意味着有意识的思考,因为实际价值的实质含义就是一个认知概念,而且必定是有意识习得的。

3.1.2 参数化学习机

Arthur模型建立的基础和Bush-Mosteller模型一样:假设个体依据按照随时间变化的概率分布p(t)发生随机行为。不过,Arthur对每个行动i定义了一个在t时刻的权重sit。若在t时刻采取了行动i,则相应权重sit的增加量就等于行动i获得的支付值,权重变为sit′=sit+。对于没有采取的行动,权重保持不变:sit′=sit。然后,所有新的权重都乘以相同的值以使得i∈Asit=C·tν成立。在t时刻,各行动发生的概率按下式计算:

pit=sit—j~∈Αsjt (4)

若ν=0,则除了负的支付可能会产生问题以外,参数化学习机模型就十分类似Bush-Mosteller模型了。若略去参数化规整处理(normation,指权重之和为C·tν——译者注),则参数化学习机就变得和最初的Roth-Erev模型相同了。

3.1.3 Roth-Erev模型

Roth-Erev模型已被证明非常适于描述博弈中的通常行为。(参见罗斯和埃里夫,1995)如果略去Arthur的参数化学习机的规整处理,那么就是最初的Roth-Erev模型了。不过Roth和Erev(1995)还用实验数据检验了他们的模型,并且引入了两个附加特征来修正模型:遗忘和实验学习[forgetting and experimentation,杜菲(2006)给出了数学描述和详细讨论]。

遗忘过程贯穿了从头到尾的学习全过程,就像参数化学习机中取ν≈0。因此,(过去不理想的)行动会重新启动,当期经历的作用比很久之前经历的相对更为重要。这就使得模型更加符合心理学知识和实验发现。(Roth,Erev,1995)

Roth-Erev模型中所引入的实验学习(experimentation),保留了过去行动经历的作用。对此学者们持有不同的观点。罗斯和埃里夫(1995)发现,实验学习的引入提高了模型对实验数据的拟合度。然而,在无意识学习框架下,实验证据不应该成为评价的主要依据。上述观点认为,实验参与者通常有意识地做出决策。因此,在解释实验中的行为时,Roth-Erev模型可能很有用,但并不一定适用于无意识学习建模。习惯发展研究和动物实验都表明,无意识学习能够较好地区分某些行为。

文献中有许多关于Roth-Erev模型修正的讨论,这里不再赘述[如见埃里夫,贝利比-梅尔和罗斯(1999)的修正]。我们没有发现能够消除它面临的根本问题的那种修正:Roth-Erev模型无法处理负强化的结果。

3.2 建 议

前面已经讨论了三种可用于建立无意识学习的模型,并且指出,典型的无意识学习过程不会在实验室中出现。因此,人类行为的实验室成果不应被用于判断不同无意识学习模型的恰当性。相反,动物行为实验和关于习惯形成的知识到应该适用于无意识模型。从这方面文献看,我们知道,在环境不变时学习过程会减慢,但是可以通过环境变化重新驱动;此外我们还知道,人们可能从各自的行动选项中完全排除某些行动,而且对奖赏的处理不同于对惩罚的处理(并非相差一个正负号,而是反应程度及其机制不一样——译者注)。(Kahnemann,Tversky,1979)以上三个模型中只有一个模型能够抓住所有这些特征,即一般化的Bush-Mosteller模型。因此,使用这个模型似乎是恰当的。当然,如果不存在负产出,那么参数化学习机以及不含实验学习(experimentation)的Roth-Erev模型都可以表达上述主要特征,但它们还是处理不了负产出(即惩罚)。

4 基于惯例的学习模型构建

前面已经广泛地讨论过了,基于惯例的学习模型是对真实的有意识学习过程的近似。这是建立在确认了某些简单的基本学习原理(fundamental principles of learning)基础之上的。经济学文献中这些原理的推演或来自实验观察、或特殊推理(ad-hoc reasoning)、或基于某种最优学习的考虑。在某些情况下,这些模型描述学习可以相当精确,但它们绝不可能描述所有场景下的学习,因为人们会进行复杂推理,并且能够理解自己将面对的潜在的复杂环境。这种能力通常不会服从任何统计意义上的最优化,经济学文献往往设定(或暗含)了这种统计最优。不幸的是,心理学家对推理过程和理解过程的理解仍然十分含糊。但可以明确的是,这些过程并不简单,并且包括了概念和信念的发展(参见,如Anderson,2000)。

我们将基于惯例的学习模型定义为这样的一类模型:在这些模型中,个体自己的经历和观察与他们的行为直接关联。所有包括信念和信念随着时间发展的模型,都可以视为在这里被称为联结或信念学习(associative or belief learning)的候选模型。具体情况将在下一部分讨论。我们断言,从来都不存在一个基于惯例的学习模型能够准确地描述各种情景下的有意识学习过程。

然而在某种情况下,基于惯例的学习模型可能是一种恰当且简单的描述。若干研究已表明,个体趋于坚持自己的信念,即使存在一些证据证明其观点是错误的。(参见,如Luchins,1942;Anderson,2000)基本信念(basic beliefs)常常不会变化,并且个体以简单的方式学习。一些心理学分支研究发现,个体在决策时采用的是简单而非最优规则。(参见,如Gigerenzer,Selten,2001)

因此,即使我们意识到基于惯例学习模型的一些局限性,但是为了描述行为而探究基于惯例的学习模型,仍然是有益处的。在这种情况下,指导这种探究的唯一方法就是经验的和实验的证据。其目的并不是获得学习过程的详细描述,而是发现能够确切表征这些行动的动态变化。

因而,基于惯例学习模型构建并不是在个体层面上进行的。前面我们早已经讨论过了,如果只是想要表征群体行为的动态变化,那么群体层面上构建学习模型可能是准确的。因此关于可以获得的学习模型的讨论分为两个部分:首先讨论群体层面的学习模型,然后考察个体基于惯例的学习模型。

4.1 群体层面基于惯例学习的模型构建

在群体层面上构建学习模型(modelling on a population level),通常会遇到模型中包含的个体间异质性的限制。大部分群体层面的学习模型允许不同个体在同一个场景下采取不同行动,因为它们包含随机因素。然而,为了发挥群体层面上建模的优势,该群体中的所有个体,都应依照具有相同参数的同一模型学习。可能有人会采用亚群体的定义,至少这样在一定程度上考虑了个体间的异质性。然而,采用数量过多的亚群体,会降低在群体层面上建模的优势效应。

在群体层面上构建学习模型的优势在于建模的简化,不再需要关注个体学习过程中的细节。整个需要研究者关注的就是模型的结果(不是模型的设定、推导过程,而是模型对行为的预测结果——译者注),对群体加总行为动态变化描述的准确性。从这一点看,实验对判断精确性起关键性的作用。

构建群体层面的学习模型,意味着需要描述群体在各时刻的各种行为个体所占的份额。因此,对每一种行为a(a∈A)定义一个份额s(a,t),表示t时刻随机选取某个体行为是a的可能性。当然,对所有的时刻t,a∈As(a,t)=1。

文献中,常用的群体学习过程模型主要有四类,分别为:复制者动态(replicator dynamics)、选择—突变方程(selection-mutation equation)、演化算法(evolutionary algorithms)和强化学习(reinforcement learning)。这四种模型都包括这样一种假设:即平均起来,行动朝着有好结果的方向调整。另外,后三种模型都含有一个通常被解释为描述创新行为的随机因素。尽管有些读者可能认为遗传编程(genetic programming)和分类系统(classifier systems)也适合于这里所讨论的模型,但不过多介绍了,因为它们含有信念学习的基本特征,故放在后面(即5.2.4小节、5.2.5小节)处理。

4.1.1 复制者动态

复制者动态(replicator dynamics)(hofbauer,Sigmund,1984)是演化博弈论的基础,起源于生物学,运用在学习行为中只是简单地表述为:适应性高于平均水平的行为其后发生的频率较高,而适应性低于平均水平的行为发生得较少。对此(a行动者份额比例的变化)可以表示为:

ds(a, t)—dt=ν(t)·s(a, t)[(a, t)-〈(t)〉] (5)

其中ν表示过程速度,(a,t)是t时按a行事的个体获得的平均产出,而〈(t)〉=a∈As(a, t)·(a, t)表示整个群体在t时所获得的平均产出。复制者动态描述了生物演化的选择过程。这里,将ν(t)称作为选择性压力,表示适应能力较差的物种灭绝的速度。(a,t)则表示依a行事的物种在时点t的适应度。

4.1.2 选择—突变方程

选择—突变方程(Eigen,1971)也被称为Fisher-Eigen方程,它同样也来自于生物学。除了像复制者动态一样抓住了选择过程,选择—突变方程还抓住了突变过程的特征。选择—突变方程可以表示如下(helbing,1995):

ds(a, t)—dt=∈A[ω(a|, t)·s(, t)-ω(|a, t)·s(a, t)]+

ν(t)·s(a, t)[(a, t)-〈(t)〉](6)

方程(6)右边的第一项表达式代表突变过程。突变矩阵ω(a|, t)定义了从一种遗传性变型转变到另一种遗传性变型a的概率。突变矩阵是根据交叉、突变和其他类似过程的生物学概率选择的。在经济学背景下,突变矩阵可以由个体随机地从一种选择转换到另一种选择的概率决定。方程右边的第二个表达式与复制者动态模型完全一致。

复制者动态和选择—突变方程主要用于学习过程的数学分析,这是因为相对其他通常的学习模型,它们更易于解析处理。我们不知道有什么实验能够检验这个模型(我们知道还没有任何实验检验),从而无法说明他们是否能够正确表征学习过程。然而,选择—突变方程至少是一种灵活的公式表达。定义突变矩阵ω(a|,t),允许将各种不同方面的因素涵盖在模型中。甚至有可能按照实际情景(the actual situation,例如个体的满意或者他们对潜在改善的知识),构造出突变矩阵以及对个体的实验。然而,到目前为止,文献中并没有对这些按实际情景构造矩阵的可能性进行检验。

在计算经济学(computational economics,即本文开头所说的基于代理人的计算经济学——译者注)框架中,复制者动态和选择—突变方程几乎没有受到任何重视——它们的构建更多地是为了用于数学分析,而不是用于仿真模拟。

4.1.3 演化算法

瑞兴博格(Rechenberg,1973)和霍兰德(holland,1975)的演化算法(evolutionary algorithms)与选择—突变方程一样,也是建立在生物学基础上的。然而,方程(6)并不能确切表征演化算法的动态变化,因为演化算法中,不同的选择过程被分别模型化了。此外,演化算法明确地描述了每一个个体的发展以及他们被下一代的替代。[杜菲(Duffy,2006)详细介绍了遗传算法(genetic algorithms),拜恩(Beyer,2001)则透彻地描述了演化策略(evolutionary strategies)。本文作者所说的evolutionary algorithms,在这里主要包括两个内容:genetic algorithms和evolutionary strategies——译者注]复制者动态和选择—突变方程在数学的演化博弈论中占据了支配地位,而在经济模拟中,使用演化算法则是十分普遍的[见holland和Miller(1991),Arifovic(1994),Dawid(1996a)的一些突破性的工作,现在许多工作都使用这个概念,这里不一一列举]。

在经济学中使用演化算法是基于这样一种观点,即演化算法能够表征学习过程(Arifovic,1994;Dawid,1996b;Riechmann,1999)。这一观点来自对社会/文化演化或者说学习过程与生物演化,这两个过程之间主要方面的类比。在描述生物演化的演化算法中,主要方面是复制、突变和选择(replication, mutation and selection)。这些可以类比社会演化的主要方面,即模仿、变化和放弃式的选择[imitation,variation and selection by abandonment,比较的工作见Dawid(1996a)]。如果这一类推成立,那么演化算法的使用将是有吸引力的,因为这些算法已有现成的计算程序了。而且,使用演化算法不需要考虑如何对实际学习过程的全部环节进行模型处理。

然而,生物演化和社会演化之间的类推是有争议的(参见,如Maynard Smith,1982;hallpike,1986;Witt,1991;Ramstad,1994)。在这个问题的讨论中,已经识别出生物的和社会的演化之间存在某些至关重要的不同点。这两个过程在群体层面上数学形式的比较显示,尽管两者有许多类似之处,但仍有一些基本的不同点(Brenner,1998)。正如前面已提到的,且下面建模也要讨论的:基于惯例的学习有许多特征,演化算法能够很好地抓住其中的一些,但另一些特征却丢掉了。

首先,演化算法包含的记忆类型有限。在演化算法中,过去的经历仅仅是通过当下群体中各种不同行动人数的相对比例而被记忆的。因此,个体有可能向一个全新的行动变异,也有可能向一个之前已有过惨痛经历的行动变异,这两种变异的可能性是相同的。实际上,人们可以记住他们过去的经历,并且能够区别这两种行动。其次,在演化算法中广义地定义了适应度函数,这意味着模型无法考虑个体之间对行动结果评价的差别。然而,这时所有群体层面的模型就都有问题了,因为群体模型不允许单个个体的发展(个体发展实际是存在的——译者注)。再次,在演化算法中,策略通过选择而被淘汰,而选择仅仅是由策略导致的绩效来决定的。在学习过程中,个体的先验动机起着重要的作用。而动机可能是一个个体历史积累的结果,因此尽管行为当期的绩效很好,它们仍可能会被淘汰。

最后,在大部分的决策任务中,备择选项或者根本没有排序,或者是一维排序,并且常常是一个自然数或实数。但是,标准的遗传算法(genetic algorithms)不是这样,它要求的选项是二进制编码。这就导致了变异和交叉过程中怪异的结果。比如,对0至15之间的自然数进行二进制编码,导致了从0到1的变异和从0到8的变异具有相同的可能性,但比从0变异到7的可能性要大得多。因此,标准的遗传算法只在极少的一些情况下适用——在这些情况下,备择选项实际上就是以二进制形式编码的(参见,如Lindgren,1992)。演化策略中并不存在这个问题,在演化策略中,备择选项是按实数编码的,并且在这些实数编码备择选项上的变异服从正态分布(Rechenberg,1973;Schwefel,1995)。近年来,一些遗传算法的使用者已经意识到这个问题,并且开始修正遗传算法,这样他们就不需要对选择进行二进制编码了。但依旧令人困惑的是,他们为什么没有转而运用似乎更加适用于大部分经济学问题的演化策略。这个困惑随着这样一个事实而加深:在发展这些算法工具过程中,不同策略的编码方法是霍兰德(遗传算法)与瑞兴博格(演化策略)的争论焦点。

令人惊讶的是,尽管存在着这些问题,遗传算法还是被广泛应用于模拟经济学的学习过程,尤其是原始版本的遗传算法。除了上述这些问题,尽管演化算法描述了个体的发展,但仍然不能和个体的学习历史相匹配。

不过,也可以列出许多赞同遗传算法和演化策略的观点。首先,它们能够近似描述群体层面的模仿、交流与变化(variation)。其次,存在相当多的能够确切描述群体层面学习的实验证据(Duffy,2006)。因此可以认为,如果我们不关心个体学习确切过程细节的话,那么对群体学习过程建模来说演化算法类的工具就足够了。所以,在此我们将其放在群体模型的标签下,因为它们描述了一个群体层面上的具有随机变化特性的搜寻过程。

当然,在使用这些模型时有两点需要铭记:第一,瑞兴博格和霍兰德所开发出的算法,是为了解决技术问题而确定最优解的方法。因此,遗传算法和演化策略的发展是为了表述最优搜寻过程,而不是为了揭示学习过程。将遗传算法和演化策略的动态特性理解为个体的学习过程,似乎很不妥当。第二,在使用演化算法时,不应该忽略行动和策略的编码问题。基于代理人计算的经济学研究,应该有意识地在各种版本的遗传算法和演化策略中,做出它们的选择。

4.1.4 强化学习

第四项选择就是用强化学习来描述群体层面上的学习。埃里夫和罗斯(1998)已经表明,在某些博弈中,用强化学习对群体行为建模能产生令人满意的结果(前面3.1节描述了强化学习模型)。一般文献中将这些模型假设用于强化学习行为建模,而强化学习又通常假设为非认知学习过程(non-cognitive learning process),因此,这里将其归为无意识学习类是比较合适的。然而,如前所述,心理学的强化学习概念并不能等同于这里定义的无意识学习。并且前面的讨论也已经显示,Roth-Erev模型并不是建立无意识学习过程模型的首选。Roth-Erev模型的设定构成中含有某种个体有意识行事的假设。此外,该模型也已经根据实验证据进行了微调。

由于实验的确认,导致我们认为,Roth-Erev模型是用于描述群体层面上基于惯例学习过程的合适工具。这个观点得到了若干项研究的支持,这些研究显示群体层面的强化学习和复制者动态的模型效果具有相似性。伯吉斯和沙林(Brgers,Sarin,1997)指出,Bush-Mosteller的强化学习模型在某些环境下可以导出复制者动态。这个主张在勃伦纳(Brenner,1997)的博弈框架下再次被检验,而且类似的博弈论分析也已经由勃伦纳和维特(Brenner,Witt,2003)用于改善原理的探讨(the melioration principle,改善学习是假设个体能记住当前和过去事件的发生频率,进而据过去各次行为经历,依某种平均决定将采取的行动——译者注)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈