一项观察学习的实验研究

时间：2022-07-10 百科知识版权反馈

【摘要】：）安东尼奥·梅洛，安德鲁·肖特摘要：本文阐述观察学习的实验研究。该研究表明，观察学习可能胜过“干中学”。人们能用差异很大的不同方式进行学习。不过许多动物研究却支持这样的假设：观察学习可能有效。实验发现，被试“看着学”的效果可以比“干中学”更好。

（原文为安东尼奥·梅洛（宾夕法尼亚州大学经济系），安德鲁·肖特（纽约大学）2001年的工作论文（下载地址http：//homepages.nyu.edu/~as7/Merlo_Schotter.pdf）。正式论文载于Games and Economic Behavior，42，116-136，2003 January。）安东尼奥·梅洛，安德鲁·肖特摘要：本文阐述观察学习的实验研究。该研究表明，观察学习（只看不动手的学习）可能胜过“干中学”。

关键词：学习

1 概述

研究者通常认为：如果两个理性经济个体面临同样的目标函数，都试图使其最大化，并且在处理过程中依据同样的数据或者说信息集（data or information set），他们就会做出同样的选择。因此，人们可能很少探究数据产生的过程，也没考虑是否应该仅仅满足于个体选择时拥有的信息存量（stock of information）。决策前信息集如何产生的过程显然在许多经济问题中都很重要。例如在反复完成相同任务的情况下，决策者的专项技能就会提高，该技能是他累积完成任务量的增函数，这就跟“干中学”（learning-by-doing）一样。在这种情况下，（不考虑过程及专项技能）仅凭观察存量能够概括提取出进行有效经济决策所需的全部信息吗？或者说，产生这些观察值的实际决策经历重要吗？本文针对该问题给出了实验证据。

人们能用差异很大的不同方式进行学习。观察学习总是有一个决策者（观察者，又称“看的人”），在另一个决策者（行动者，又称“干的人”）行动时，仅仅观察他的所作所为［见约万诺维奇和尼亚柯（Jovanovic，Nyarko，1995）的工匠学徒模型（apprentice-craftsman model）的应用，在本质上类似于这里要探讨的模型］，看的人仅仅观察但不动手。进而，在看的和干的都反复了足够多的次数后，就将具有同样的观测信息存量，如果他们是理性的且都想使相同的目标函数最大化，我们很可能认为要比较这两种决策绩效的话，干的不会比看的差，因为干的人多了亲自动手的经历。

不过许多动物研究却支持这样的假设：观察学习可能有效。例如，特克尔（Terkel，1996）的工作表明年轻老鼠年幼时观察妈妈，好像能很容易就学会剥松子皮。约翰（John，1969）等证明，把猫放在用玻璃墙从中间隔开的笼子里，观察一只训练好的动物演示具体任务，就能训练猫执行任务。若干次观察后，猫即使没亲自做过，但好像也能很好地完成任务。

本文考虑这样的假设：信息收集过程会影响被试的选择行为及效果，被试从同一人群中随机抽取。实验发现，被试“看着学”的效果可以比“干中学”更好。对此可能的解释是：当被试在重复实验或参与市场行为中每轮都能获得一小点收益的话，如同在大部分实际市场中一样，那么市场反馈趋于将决策者的注意力聚焦于短视的刺激—反应特征，这看来阻碍了他们对实验经历的记录进行权衡分析判断［见梅洛和肖特（Merlo，Schotter，1999）的研究，以下简记为M-S，该研究对“经历强化”有更为完整的说明］。然而，如果被试看着动手者经历了全过程，那么他的注意力将会有不同的聚焦点，即所谓“旁观者清”，反而会有较好的效果。在某种程度上，这解释了教练、导演以及周日上午的四分位（橄榄球后场运动员，通常为本队发号指令——译者注）的价值。

另一个有趣的发现是，不仅观察能潜在的提高绩效，而且观察者的学习效果取决于他们观察的对象。换个角度说，相较好的行动者对观察者之后作出的决策能产生好的影响，而差劲的行动者则不能——好的模仿对象对行动绩效至关重要。

本文以下的内容安排为：第2部分讨论被试要实施的决策任务和基线实验设计，第3和第4部分给出基线实验结果，第5部分报告两个回答基线实验潜在批评的额外实验结果，最后第6部分提供了一些结论。

2 决策任务和实验设计

就像M-S中的工作那样，所有为检验假设所设置的实验都是锦标赛的变形（tournament variety），与肖特和魏格尔特（Bull Schotter，Weigelt，1987；1992）的实验类似。在所设置的实验中，随机配对的被试每一轮须在0和100之间决策——选一个数e。每个被试选定决策数e后，再从均匀分布的闭区间［－a，+a］中独立产生一个随机数。将决策数与随机数相加，就确定了每个被试的加总数。对比每对被试的加总数来决定被试的收入大小，对最大加总数的被试给他“大”的收入M，给最小加总数被试一个“小”的收入m，M＞m。同时，选择决策数e也是有成本的，该成本用凸函数c（e）=e2/k给出；然后从各自收入中减去成本，以决定最后报酬。因此，该实验中选的决策号数e越大，赢得大奖的可能性越高，当然也就要承担更高的决策成本（在实验说明中，我们十分注意避免使用包含价值含义的诸如“赢”或“输”之类的词语。）。令k=500，a=40，M=29，m=17.2，双人锦标赛唯一的纳什均衡为37。用计算机代替一方，并设定机器参与方总是选37。然后将这种随机产生数与自己选择数相加，并将成本计算决定收益的情况告诉被试，则原双人锦标赛问题已转化为单人二次支付函数极值问题——将双人锦标赛中的一方固定选择为37以后，变为单人条件支付函数极值问题。

这项实验有利于我们的研究目的理由至少有两点：第一，虽然它向被试呈现的是一个完全信息（complete information）的极值问题，被试有可能事先把最佳选择算出来，但解该问题复杂到大多数被试无法推算出解。第二，虽然决策问题求解复杂，但是实验很容易被描述和理解，这一点是很有吸引力的，因为这能很好地降低数据误差。

与M-S实验一样，被试在我们的基线实验中重复上述决策任务75轮，每轮都付给他们少量报酬。完成后他们惊奇地感觉到，为了得“大奖”（big stakes）还想再做一次实验，大奖的额度是此前每一轮少量报酬的75倍。在这一轮“惊奇大奖测试”（surprise-quiz）中被试所做的选择，应是此前75轮整个学习结果的体现（在统计意义上）。这次所作的选择应该是他们对最优决策的最佳估计。当年的M-S实验是关注不同报酬的区别——比较“惊奇大奖测试”与普通回合的少量报酬对被试决策的影响。

这里的实验与以前M-S实验的不同之处在于：安排一个被试作决策时另一被试在一旁静静地观看。实验中要求绝对安静（虽然实验中并没有发生被试交谈的情况），并且禁止被试以任何方式进行交流，比如叹息、微笑、皱眉或其他任何方式。这些只看不动的被试（观察者）在他们观看行动者之前只被告知观察的东西与最后要做的实验有关，但并不告诉他们在行动者完成后还要做什么。在行动者完成“惊奇大奖测试”后，观察者先离开房间，然后行动者离开，之后再让观察者回来。这时告诉观察者，他们所有进行的就是刚才观看的游戏，但只进行一次，奖金数额巨大（big stakes），例如是他们刚才观看的一轮报酬的75倍。

注意在我们进行的实验中，每对被试（一个行动者和一个观察者）的信息是一样的，因为每个观察者都在观看行动者同伴。我们把行为人信息获取方式简单处理为：行动者实际产生信息，观察者被动地看着信息的产生。要分析比较的是这两组被试在“惊奇大奖测试”中的选择。如前所述，若这些被试学习有差异或者学了有差异的东西，则应在“惊奇大奖测试”选择中显现出来。

2.1 实验步骤

这里报道的所有实验都是在纽约大学C.V.Starr应用经济学中心的实验经济学实验室进行的。实验者把招募来的学生分成10到20个人一组，并带进一个房间。总共有62个被试参加了基线实验，还有124个被试参加两个附加实验（实验2和3），以解决基线实验的潜在毛病。下面，我们先介绍基线实验的程序，第3部分讨论实验结果，实验2和实验3的程序及实验结果放在第5部分讨论。

被试到实验室参与基线实验，他们被随机分成两种类型：A类是行动者，B类是观察者。被试领取测试说明书，阅读并理解说明内容：B类在观看A类做完实验之后，B类自己也要做一个实验，但B类并不知道自己所要进行的实验的种类，只是知道自己的实验将在某种方式上和自己的观看的有关。实际实验过程是：

首先，B类被试观看、A类被试做选择，完成75轮测试；

然后，B类离开房间、A类进入一次性的“惊奇大奖测试”；

最后，B类再回房间也进行“惊奇大奖测试”。

测试中所有给被试的报酬都使用筹码，与美元的兑换比例是0.01∶1，“惊奇大奖测试”的报酬是此前一轮报酬的75倍。

基线实验中，行动者被试在实验室里花一个半小时大约可以获得30美元的报酬，因为他们实际上做了两次实验；观察者等其他被试的报酬为行动者的一半。

2.2 研究问题

虽然没有现成的理论可作为这些实验的分析基础，但以前的M-S实验可用于构成能够归纳一系列形式化问题（假说、命题）的基础。以前的M-S实验表明：“惊奇大奖测试”中被试选择并不理想，因为他们的选择并不靠近最佳值37。由该实验推测的结论是：个体的确如此！因为在他们搜寻（决策搜索）过程中每轮都会收到小额报酬，那么学习的目标就是从他们面临的报酬函数中寻找极值，转变为从逐轮测试接收的反馈过程中寻找适当的调适响应方式（从找极值变为形成调适响应）。因此被试以自己的调适方式处理自己决策所产生的序列数据。实验的最后一步，他们在“惊奇大奖测试”的结果面前感到吃惊，知道了自己没有采用良好的关于支付函数的认知图式（cognitive map）。如果这个推测是真的，且观察者的存在不影响被试行为的话，那么可以预计——行动者被试将像M-S实验中的被试一样，以同样的方式行动，而不会找到最佳决策。

本文的焦点是考查与行动者相关的观察者绩效。我们用“惊奇大奖测试”中被试们产生的数据进行考查（观察者绩效如何与行动者行动情况有关），并归纳出以下4个问题：

问题1：观察者和行动者在“惊奇大奖测试”决策轮中选择的中位数都等于最佳值37吗？

问题2：被试是观察者与行动者一对对组合的，如何比较观察者与行动者的“惊奇大奖测试”报酬？

问题3：观察者在“惊奇大奖测试”决策轮的选择分布是否与行动者的选择分布没有差异？

问题4：就被试配对考察，行动者的选择和观察者的选择高度相关吗？

3 基线实验结果

基线实验结果的讨论围绕上述问题予以阐述。下面首先对行动者和观察者在“惊奇大奖测试”中所做的选择，作一个简单的统计描述。

在“惊奇大奖测试”中选择；给出了既定随机波动分布下他们决策的期望支付（报酬的数学期望）。表中数据的一些特征是很明显的：

 观察者选择中位数是37（极大值），行动者选择的中位数50（平均值分别是40.65和51.06）。

 行动者选择的均值和中位数（分别是51和50）与M-S实验中的均值和中位数是一样的。这个结果既重复了以前的实验又表明观察者不会影响行动者的行为。

 有12个观察者的“惊奇大奖测试”选择距离最佳值37不超过5，而行动者中仅有5人达到这样的距离。此外，观察者样本中有6个被试精确地选了37，而行动者中仅有1人这样做。

 虽然观察者支付的均值和中位数比行动者高，因为支付函数在极值附近相对平坦，所以观察者与行动者的差别似乎并不悬殊。尽管如此，31对被试中有18对观察者选择的支付大于行动者；10对观察者选择的支付小于行动者（剩下的3对，两人选择相同）。

 就行动者在“惊奇大奖测试”中的选择而言，31个被试中有9个选在“高端”（e可在100中任选，有9人选的e≥65，远远偏离了最佳值37）；而对于观察者，只有5个人如此选择。

 就行动者和观察者选择之间的联系来看，在决策前具有相同信息集的条件下，指标值仅为0.39。这表明他们虽共享历时信息，但观察者与行动者处理他们经历的信息方式很不一样。

总体可见，行动者和观察者在“惊奇大奖测试”选择上是有一定差别的。

现在把目光转向回答上面提到的四个问题。对每个问题，就相应能标示该问题的假说给出简单非参数检验结果（及p值）。本文采用的假设检验标准是：如果检验的p值小于（大于等于）0.10，则在约定的统计显著水平下能够（不能）拒绝原假设。

问题1：观察者和行动者在“惊奇大奖测试”决策轮中选择的中位数都等于最佳值37吗？

为回答该问题，分别对两类被试的“惊奇大奖测试”选择进行简单二项式检验（simple Binomial test，检验观察者选择在37以上的可能性等于选择在37以下的可能性）。检验情况表明：不能拒绝“观察者选择的中位数等于37”的假设；采用正态分布近似的p值为0.007，拒绝了“行动者选择的中位数等于37”的假设（行动者选择的中位数是50）。

问题2：被试是成对组合的，如何比较观察者与行动者的“惊奇大奖测试”报酬（统计差异）？

对这个问题，采用下面的符号检测法。取“惊奇大奖测试”中任一对行动者和观察者被试，对两人选择后的支付值进行比较并打上符号标记。若观察者的支付大于行动者的支付，则给观察者的决策数打上“＋”；若小于行动者的支付则给观察者的决策数打上“－”；若两被试选择一样的决策数，则赋0分并剔除该记录。然后检验“两组的中位数之差为0”的假设，该假设意味着观察者报酬大于行动者的概率等于小于后者的概率。换言之，假设预期这个“增大可能性”π等于1/2。在π=1/2的原假设下，观察者中为“＋”的可能性是18/28（31去掉3个）。可见，用正态分布近似可以拒绝支付均等假设（“两组的中位数之差为0”），转而支持备择的单边假设：观察者做的选择是支付增大的（p值为0.093）。

问题3：观察者在“惊奇大奖测试”决策轮的选择分布是否与行动者的选择分布无差异？

这里采用基于皮尔逊卡方检验的非参数处理方法。令h=1，2，…，10为“惊奇大奖测试”选择分布的柱形图中各柱高的区间，h=1代表区间［0—10），h=2代表［10—20），依次类推。令ndh和noh分别代表区间h内行动者和观察者的经验频率。那么，具有9个自由度的卡方分布统计量Q为：

Q=10—h=1（ndh－noh）2—ndh

其中Q是所记录到的观察者选择与行动者选择差异程度的度量。由此可拒绝原假设：观察者在“惊奇大奖测试”决策轮中的选择分布和行动者选择的分布一样（Q=22，p值为0.009）。

问题4：就被试配对考察，行动者的选择和观察者的选择是高度相关的吗？

行动者和观察者选择之间的相关系数是0.39。待检验的原假设为“该系数为1”（行动者和观察者的选择完全相关）。采用正态近似，检验的统计量服从自由度为29的t分布t=rn-2—1-r2~t（n-2），n=31，r=0.39。检验计算结果拒绝了行动者和观察者的“惊奇大奖测试”选择完全相关的原假设（p值为0.002）。这意味着虽然行动者和观察者在他们“惊奇大奖测试”选择之前观看了相同数据，但他们的行为迥异。

4 是否名师出高徒？

前面已经证明，就一般的普通意义而言，观察者在我们让他们面对的决策任务上做得比行动者好。然而当以下面方式将实验数据分开时，我们发现了一个同样很有意义的结果。把那些先在75轮实验中取得比平均成绩好的（获得报酬）那些行动者界定为“优秀行动者”（31个被试里有16个“优秀行动者”）；同理，把那些表现差的界定为“差行动者”（15个）。现在考虑那些优秀行动的观察者和那些差行动者的观察者，看他们在“惊奇大奖测试”回合中的决策。我们发现那些优秀行动的观察者确实做得比那些差行动的观察者好。更确切地说，优秀行动观察者在“惊奇大奖测试”的决策数与最佳决策37的偏差绝对值是3（31个人的偏差中位数是9.1）。实际上，观看优秀行动者的16个被试中有一半的“惊奇大奖测试”决策数与37的偏差小于3个单位。而那些观看差行动者的被试（15个）的偏差中位数是27（15个人的偏差平均值是27.7）。我们认为，这两类观察效果反差强烈。此外还应补充的是，在“惊奇大奖测试”中选准37的5位观察者被试都属于优秀行动观察者子集。

另一个有趣的发现是优秀行动的观察者被试在决策改进的程度上优于差行动的观察者。例如，当优秀（差）行动者距离最佳决策37的绝对偏差中位数为13.5（32）时，观察他们的被试做出的选择距离37的绝对偏差中位数则为3（27）。因此，优秀行动者的观察者更有可能在他们观看的行动者基础上改进他们的行为（中位数从13.5到3，有80.7%的改进），而那些观看差行动者的被试选择偏离37的中位数仅仅从32改进到27（15.67%的改进）。

看起来很清晰的是，当观察能改进行为时，观看优秀行动者更能改进行为。人们似乎相对更容易通过（看别人的）实例而不是（自己操作的）实务来学习。换言之，如果一个人看工匠工作并向他学习，那么观看优秀者并学习他的技能的效果，要比观察差的并从其教训中学习更好。

5 附加实验

上述结论是相当惊人的，不过产生如此结果的实验设计也会受到批评和质疑。例如可能的一种批评意见是实验结果带有人为的强制性（被试事先被做了不同安排），因为我们告诉观察者他们正在观看的与接下来他们在实验中将要获得的报酬有关，但没有把这一信息告诉行动者。因此，有人可能认为，观察者比行动者看得更细心就不足为怪了。

但我们并不认为这一批评是问题，反而正是我们观点的总结——大部分经济环境并不有利于学习，人们在置身其间的场景中所做的事情就是按部就班地采取行动并获得支付，而不是带特定的目标去学习了解市场如何运行，去学习了解他们参与其中的制度运行是怎么回事。所以如果我们告诉被试必须特别注意正在干的事情（因为在后面的实验中是有用的），将会提高他们的选择绩效的话，那就不奇怪了。我们的观点是：自然产生的市场在现实运转中是没有这样的提示。

针对上述这种批评我们安排了由35对被试构成的实验2。除了行动者和观察者都被告知在行动者做完实验后两组将分别进行另一场和行动者刚做的实验相关的实验以外，实验2和上面描述的基线实验全都一样，也不告诉他们即将进行的实验是简单“惊奇大奖测试”。实验中的准确表述是：第一场A组做完75轮以后，将要给A和B两组都安排第二场实验。将要进行的第二场实验与A组要先作的第一场实验有关，所以注意第一场实验很重要。A组做完第一场75轮以后留在实验室，B组离开实验室。A组继续第二场做完并拿到支付后离开；然后B组返回进行第二场实验，做完实验后领取自己的支付。

实验2的结果类似于上面基线实验。例如，虽然行动者和观察者选择的中位数差别不大（分别平均是44和42），但是用与基线实验一样的二项式检验结果却表明：可以拒绝行动者选择中位数为37（p值为0.091）的原假设；不能拒绝观察者（p值为0.170）的同样原假设。两组被试的选择分布也很不同。用前面用过的皮尔逊卡方检验检验法，将拒绝“观察者的‘惊奇大奖测试’选择分布等于行动者选择分布”的原假设（Q=17，p值为0.049）。再补充说明一点具体的分布情况，观察者的选择更紧密地围绕在最佳值37左右（35个观察者中有23人选在［25，50］区间内，而35个行动者中仅有14人落在该区间）。

比较观察者和行动者的“惊奇大奖测试”决策轮支付（比比看，两种决策学习绩效孰高孰低），共有28对被试的决策数不同，其中18位观察者的支付报酬大于他的行动者伙伴。用和上面一样的符号检测法，可以拒绝报酬均等的原假设而支持单尾备择的假设：观察者的选择是有助于绩效改善的（p值为0.093，观察具有优于行动的学习效果）。

和在基线实验中一样，“惊奇大奖测试”中选在“高端”（e可在100中任选，若选e≥65，远远偏离了最佳值37，则称之为选在高处（dominated choices）。基线实验中选高处的行动者有9位、观察者有5位。实验2中选高处的人数都下降了3个单位。）的行动者（6个被试）多于观察者（2个被试）。最后，行动者和观察者“惊奇大奖测试”选择之间的相关性是0.21。用与前面基线实验类似的t检验，可以拒绝行动者和观察者“惊奇大奖测试”选择完全相关的原假设（p值为0.000）。这表明，对于哪一点是超大报酬回合中的最好选择，观察者得出了与他们所观看的行动者不同的结论。

总体上，虽然实验2中观察者与行动者的某些差别要比基线实验中的要小一些，但确实存在定性与定量的差异，即使他们都被告知行动者先进行的实验与将进行的实验报酬有关。

再考虑对基线实验的另一个批评：因为行动者在前一场75轮实验中已经获得支付了，而观察者并没有，所以在“惊奇大奖测试”超大报酬回合中的选择差距可能仅仅反应了影响行动者而不影响观察者的收入效应。为此（即校正这一影响），我们安排了27对被试的实验3。在该实验中，75轮行动者得分所获得的支付额也同样付给配对的观察者，但仅仅告诉观察者接下来还将有个实验。换句话说，实验3消除了收入效应但保留了基线实验的信息结构。

实验再次表明，结果和上面基线实验得到的结果非常接近。特别地，我们可以得出行动者和观察者的选择不同并且差异很大的结论。观察者作的选择与他们观看的行动者的相比，是报酬增大的。比如，行动者和观察者的中值（中位数）选择分别为49和45。对49和45，虽然我们不能拒绝这两个中位数等于37的原假设（p值为分别为0.182和0.230），但可以看到两组被试选择分布是不同的。

用和上面一样的皮尔逊卡方检验，可拒绝“惊奇大奖测试”中观察者选择分布等于行动者选择分布的原假设（Q=18，p值为0.035）。与前面的实验结果类似，可以看出观察者的选择更紧密地落在最佳值37周围（27个观察者中有19人选在［25，50］区间内，而27个行动者中仅有13人落在该区间）。

再看观察者与行动者的报酬相比如何（比比看，两种决策学习绩效孰高孰低）。可见25对被试中有17对作出了不同选择，观察者选择的支付大于他们对应的行动者伙伴。重复上面用过的符号检测法，将拒绝支付相等的原假设而支持单尾的备择假设：观察者的选择是报酬增大的（p值为0.055）。

与基线实验类似，“惊奇大奖测试”中选在“高端”（e≥65）的行动者（5个被试）多于观察者（1个被试）。最后，行动者和观察者“惊奇大奖测试”选择之间的相关性是0.56。用与前面基线实验类似的t检验，可以拒绝行动者和观察者“惊奇大奖测试”选择完全相关的原假设（p值为0.004）。

综之，收入效应的出现对基线实验的结果几乎没有影响。事实上，即使消除了收入效应，行动者和观察者之间选择的区别依然是显著的（如实验3结果所示）。

6 结论

在这篇论文中，我们试图得出的结论是，信息积累方式可能对决策者的经济决策质量有显著影响。具体而言，观察学习可能胜过干中学。我们相信这些结果是令人困惑并富有挑战性的，并对某些经济理论形成了新的挑战。例如，基线实验里30%的行动者在超大报酬回合中远远偏离了最佳值37——选在靠近100的“高端”；但观察他们的被试却没有跟着这个错误落入陷阱，这是令人吃惊的。这一事实引发了行动者和观察者可能启用（不同）学习类型的有趣问题。更精确地说，因为行动者的每轮选择都受到小额支付的反馈，他们（调整努力）的倾向可能更像是强化学习，对任一特定决策来说，随着某种所作选择的累积支付的增长，将提高这种决策的概率。然而，强化学习仅仅加强实际做了的那些选择。如果一个行动未被选择，它就得不到强化。因此，如果一个行动者持续在“高端”范围内选择，那么他会继续仅仅强化那些行动并且再也不会发现自己误选在“高端”了。同时，观察者可能更像凯默瑞和胡（Camerer，ho，1999）描述的学习者：通过计算与选择相关的假定要发生的支付，这一类学习者也会强化自己没有做过的选择。观察者更有可能以这种方式行动，因为他们处在更抽象的场景中，有助于处理信息的理论化。因此，也许一类学习模型可以解释行动者的选择，另一类学习模型适用于解释观察者的行为。

最后要说明的是，我们并不是断言在所有学习任务方面都是“看着学”胜过“干中学”。在许多环境下，亲身参与任务可能是重要的。比如，我们不期望某个人坐在驾驶员座舱内观察就能驾驶飞机。对于抽象的脑力任务，观察多半更有利于收集处理信息。然而如M-S所述，即使对于脑力任务，支付环境可能也是很重要的。

附录对基线实验的说明

这是一个关于决策的实验。一些研究机构和基金会为这次实验提供了资助，因此，如果你专心并做出好的决策，你可能会赚取一笔相当可观的盈利，我们将在实验结束后安排兑现你的盈利。

当你们走进房间，你们将被任意地分配到两个规模（人数）相等的小组中，分别称为小组A和小组B。如果拿到的实验说明书的右上角标示为A，你就被分配在A小组中；如果右上角标示为B，你将会在B小组中。然后，实验将会依下列各项程序依次进行：两个小组即将阅读的实验手册及其附录的内容对所有的人是相同的。在你阅读实验手册完毕后，我们将会大声地把实验手册再宣读一遍，而且回答你可能有的关于实验方面的任何疑问。完成实验说明阶段的任务后，我们将立即前往计算机实验室（微机房）。在A小组的人们将会坐在一个终端机之前，而且开始依照实验手册中所描述的那样进行75个轮次的实验操作，即，他们将会重复相同的实验75次。在B小组的每个人将会与在一个A小组中的某一个人相配（组成一个配对实验被试，在一个终端机之前分别进行观察或操作），而且当A小组中的那个人进行实验操作的时候，他/她（观察者）将在他/她（行动者）的身后默默地观看。

当B小组的人观看时，绝不允许A小组的人与其相配的伙伴之间的任何形式的交流。这意味着：禁止交谈、使眼色、呻吟、窃笑，或任何其他类型的相互交流。保持沉默！

当这75个轮次结束的时候，要求B小组人离开计算机实验室，而且把他们即将进行的另外一个实验详尽地告诉他们。这个即将进行的实验与A小组的人刚刚做的那个实验密切相关，因此注意你与你相配的伙伴所做的一切是很重要的。A小组的人们将会留在微机房，接受下一步的实验指令；盈利被兑现，离开实验室。当A小组的人离开实验室之后，B小组的人将返回实验室进行他们的实验，盈利被兑现而且离开实验室。

（1）对实验的特别说明

当你和一些其他的实验被试在一个房间中阅读这些实验说明时，每个实验被试都随机地被分派一个身份表示数字和计算机终端机。实验有75个决策轮次。在每个决策轮次，你将会与已经被设定程序控制的计算机化的被试配对进行实验，计算机化的被试在每个轮次中做出相同的决策。与你随机相配的计算机化的被试叫做你的配对成员。你的配对成员在整个实验过程中将始终保持同样的设定程序。

（2）实验的程序

在实验过程中你将会执行一件简单的任务：本实验说明最后附有“决策成本表”，在这张表格中A列标示出从0到100共101个数字，这些就是你的决策数。与每个决策数相联系的是一个决策成本，标示在B列中。注意，选择比较高的决策数，决策成本也就相应较高。当你进入实验室时，你的计算机显示屏应该显示出如下的内容及相应格式：

参与人#

轮次决策数# 随机数# 总数# 成本盈利

在每个决策轮次中，计算机将会要求你选择一个决策数。你的已经被设定程序控制的计算机化的配对成员也将会选择一个决策数，请记住它在每个决策轮次中将总是选择相同的决策数，37。当然，你可以在“决策成本表”的A列中自由选择任何你愿意的数字。因此，在每个决策轮次中你和你的计算机化的配对成员将分别独立地选择各自的决策数（而且你知道你的计算机化的配对成员总是选择37）。使用数字键，输入你选择的数字，然后打回车键。为了确认你的选择，计算机随后会问你下列问题：

你的决策数是吗？［Y/N］

如果显示的数字是你希望选择的，打Y键；如果不是，打N键，而且计算机将会要求你再选择一个数字。在你已经选择而且确认你的决策数之后，这数字将被记录在屏幕所显示的表格中的第2列，而且与之相联系的决策成本将会被记录在第5列中。当你已经选择你的决策数之后，计算机将会为你提供一个随机数——你只需打（那个长的键，在键盘的最下面）即可完成随机数的产生。当你击打空格键后，就会引致计算机在-40和+40之间的这81个数字（包括0）中任意选择其中的一个数字，且每个数字被选择的概率是相等的。也就是说，计算机选择+40的概率等于它选择-40、0、-12或+27的概率。另外的一个随机数（仍然在-40和+40之间）由你的计算机化的配对成员以同样的方式产生出来。产生你的随机数的过程与你的计算机化的配对成员产生他自己的随机数的过程是相互独立的，即，你不应指望由计算机产生的这两个随机数之间存在任何关系。当你打空格键后，计算机将把你的随机数记录在屏幕所显示的表格中的第3列。

（3）支付的计算

在每个决策轮次，你的盈利将依下列所示项目和方式进行计算。在你选择一个决策数字而且产生一个随机数之后，计算机将把这两个数字加总得到一个和数，并记录在屏幕所显示的表格中的第4列。我们把第4列的这个数字叫做你的“总数”。计算机将会对计算机化的配对成员进行同样的计算加总和记录。然后，计算机将比较你的总数与计算机化的配对成员的总数，如果你的总数比你的计算机化的配对成员的总数大，那么你将会得到29Fr.的高固定支付，其中：Fr.是一个虚拟的实验货币，权且称之为法郎；否则，你将得到17.2 Fr.的低固定支付。至于你究竟得到的是29Fr.的高固定支付，还是17.2 Fr.的低固定支付，仅仅取决于你的总数是否比你的计算机化的配对成员的总数大或小，而不管大或小达到何种程度。实验货币法郎将会以所属的规则转换成美元。计算机将会记录（在屏幕所显示的表格中的第6列）你得到的固定支付类型：如果你得到高固定支付（29Fr.），“M”将会在第6列中出现，如果你得到低固定支付（17.2 Fr.），“m”将会在第6列中出现。在标示出你得到的固定支付类型后，计算机将会从你得到的固定支付中减去你的决策成本（第5列），这个差值就是你在这个实验轮次的报酬。你所得到的报酬数量记录在屏幕所显示的表格中的第6列，恰好紧挨着标示你的固定支付字母（“M”或“m”的那一列）。

（4）实验持续的轮次

在实验的第1轮次结束之后，你仍将以相同的程序进行实验的第2个轮次，如此等等，直到完成75个轮次为止。在每个轮次实验中你将要选择一个决策数，通过击打空格键产生一个随机数。计算机将自动把你的总数与你的计算机化的配对成员的总数相比较并计算出你在该实验轮次得到的报酬。当完成时，计算机会要求你在它的键盘上按任何一个键。做完这一切之后，计算机会把你在每一个轮次得到的报酬加总，最终得到你在所有75轮次实验中以Fr.为单位计量的总报酬，然后按1Fr.兑换0.01美元的比例换算得到你的以美元计量的总报酬。然后，我们就会兑现，即付给你相应数目的现金。

（5）计算支付的例子

假如在一个轮次实验期间下列各项发生：A小组中的某配对伙伴A2选择一个决策数60而且产生一个随机数10；同时，计算机化的配对成员A，选择一个决策数37而且产生一个随机数5。随后，配对伙伴A2会得到29 Fr.的高固定支付，从这个固定支付中减去7.2 Fr.（与决策数60相对应的决策成本）。在这一轮次实验中A2得到的报酬为21.8 Fr.（即，29 Fr.-7.2 Fr.）。注意，被减去的第5列中的决策成本仅仅是你的决策数的一个函数，即，你的随机数不影响被减去的数量。还要注意，你所得的报酬多少取决于以下列各项：你选择的决策数（原因有两个方面：其一是因为它成为你的总数的一个组成部分，其二是因为它决定了从你的固定支付中减去的决策成本的大小），你的计算机化的配对成员的决策数（37）是事先就确定了的，你产生的随机数和你的计算机化的配对成员产生的随机数。

参考文献

Bull，C.，Schotter，A.，& Weigelt，K.（1987）：“Tournament and piece Rates：An Experimental Study，”Journal of political Economy，vol.95，1-33.

Camerer，C.& ho，T.h.（1999）：“Experience-Weighted Attraction Learning in Normal Form Games，”Econometrica，vol.67，827-874.

John，E.R.，Chesler，p.，Bartlett，F.，& Victor，I.（1969）：“Observational Learning in Cats，”Science，vol.166，901-903.

Jovanovic，B.& Nyarko，Y.（1995）：“The Transfer of human Capital，”Journal of Economic Dynamics and Control，vol.19，1033-1064.

Merlo，A.& Schotter，A.（1999）：“A Surprise-Quiz View of Learning in Economic Experiments，”Games and Economic Behavior，vol.28，25-54.

Schotter，A.& Weigelt，K.（1992）：“Asymmetric Tournaments，Equal Opportunity Laws and Affirmative Action：Some Experimental Results，”Quarterly Journal of Economics，vol.106，513-539.

Terkel，J.（1996）：“Cultural Transmission of Feeding Behavior in Black Rats（Rattus rattus），”pp.17-47 in Cecilia heynes & Bennett Galef，Jr.，eds.，Social Learning in Animals and the Roots of Culture，Academic press：New York.

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈