不完美信息下观察学习的一项实验检验

时间：2023-07-10 百科知识版权反馈

【摘要】：（当我们［博阿奇汗·杰伦（B.elen），哥伦比亚大学商学院；沙克尔·卡瑞夫（S.Kariv），加州大学伯克利经济系〗都还是纽约大学的研究生的时候我们便几乎完成了此篇论文。另外，我们有强有力的证据表明，在完美信息条件下，一种贝叶斯行为的广义形式充分解释了实验室中的行为，而在不完美信息下，个体行为与这种广义的贝叶斯行为不一致。

（当我们［博阿奇汗·杰伦（B.elen），哥伦比亚大学商学院；沙克尔·卡瑞夫（S.Kariv），加州大学伯克利经济系〗都还是纽约大学的研究生的时候我们便几乎完成了此篇论文。该项研究受到实验社会科学中心（CESS）以及纽约大学C.V.Starr应用经济学C.V.Starr中心的支持。我们感谢的Andrew Schotter指导以及匿名审稿人的评点。我们从William Baumol的建议中获益颇多。同时我们还要向Colin Camerer，Liran Einav，Xavier Gabaix，Douglas Gale，Charles holt，David Laibson，和Matthew Rabin表示感谢。2002年国际ESA会议参与者的讨论建议以及在数所大学举行的研讨会也使我们受益颇多。（杰伦和卡瑞夫的这篇文献“An experimental test of observational learning under imperfect information”正式载于2005年的Economic Theory，26，677-699——译者注））博阿奇汗·杰伦，沙克尔·卡瑞夫摘要：几乎所有的观察学习模型都假设个体可以观察到在其之前行动者的所有决策。事实上，这样的完美信息（perfect information）是很少见的。为探究在完美信息和不完美信息（imperfect information）条件下观察学习的区别，本文拟通过一项实验来考察个体通过观察他们紧前者（immediate predecessors）的行为来学习的情况。我们的实验设计使用博阿奇汗·杰伦和沙克尔·卡瑞夫（B.elen，S.Kariv，2004a）所设计的程序，且该设计也是以博阿奇汗·杰伦和沙克尔·卡瑞夫（2004b）的理论为基础的。我们发现，当被试拥有不完美信息时，模仿是很少发生的，甚至少于理论预测。另外，我们有强有力的证据表明，在完美信息条件下，一种贝叶斯行为的广义形式充分解释了实验室中的行为，而在不完美信息下，个体行为与这种广义的贝叶斯行为不一致。

关键词：不对称信息，羊群行为，信息追随，不完美信息，实验经济学

1 引言

考虑不完全和不对称信息（incomplete and asymmetric information）下，有一系列个体要顺序进行“一次性决策”（once-in-a-lifetime decision）。如果每个决策都是公开的，尽管信息不对称，最终个体都会模仿他们前者的行动，即使这和他们的私人信息相冲突。换句话说，个体会忽略他们自己的信息而遵循群体的行为。更进一步，因为行动本身并不能很好地累积信息，群体很可能采取非最优的行动，这个理论预测被很多实验研究所证明。这些是班尼杰（Banerjee，1992）以及巴克钦丹尼、赫施莱弗尔和韦尔奇（Bikhchandani，hirshleifer，Welch，1992）观察学习文献介绍的主要结论（对文献扩展性的讨论可见Chamley（2003）。十分优秀的调查资料可见Gale（1996）和Bikhchandani，hirshleifer以及Welch（1998）。对于理论的进一步拓展包括Lee（1993），Chamley和Gale（1994），Gul和Lundholm（1995），以及Smith和Srensen（2000）。）。

几乎所有的观察学习模型都有一个核心假设——完美信息：每个人都知道此前决策者行动的完整历史。事实上，个体具有的信息并不完美。如果每个个体只能观察一小部分其他个体的行动，我们就不清楚羊群行为是否会发生。在杰伦和卡瑞夫的文献中（elen，Kariv，2004b），我们舍弃了完美信息的假设，研究每个个体只能看到其紧前者决策时的行为。

我们的不完美信息模型与完美信息推出的结果很不一样，在某些方面，不完美信息模型推出的结论更为极端。模型推断，顺序作出相同决策的一致行为的周期越来越长，穿插其中的变化也越来越少。这样，完美和不完美信息这两种形式的模型都有这样一个共同推断，即在较长一段时间内个体会做出相同的选择。但是二者的重要差异在于，在完美信息模型中，羊群行为是“吸引态”（absorbing state，意指渐趋收敛——译者注），而在不完美信息模型中，行为翻转的可能性却始终存在（不是逐渐吸引，而是分段持续一致且急速翻转——译者注）。

本文的目的就是用实验的方法研究不完美信息条件下的行为，并与杰伦和卡瑞夫（elen，Kariv，2004a）在完美信息下获得的结果进行比较。整个实验过程中，我们采用了比现有文献更丰富和灵活的实验设计。（Anderson和holt（1997）用实验考察了Bikhchandani，hirshleifer和Welch（1992）的模型。沿着他们先前的工作，Allsopp和hey（2000），Anderson（2001）、hung和plott（2001），以及Kubler和Weizsacker（2004），还有其他人分析了完美信息条件下的观察学习行为。）

实验中，顺序决策的被试的私人信号在［-10，10］的均匀分布区间内抽取。决策问题就是要预估所有被试信号的总和是正还是负，据此选择一个合适的行动A或B。若总和为正，则A是可获利行动；若总和为负，则B是可获利行动。然而，被试并非直接选择行动A或B，而是在获知先前被试的决策之后且获知自己私人信号之前，要间接地选一个截点值（cutoff）——若信号值比截点值大，就是被试选择了行动A，否则为行动B。只有被试选定了截点后，他才会被告知自己的私人信号，然后记录相应的行动选择。

除了信息结构外，此次实验设计与杰伦和卡瑞夫在文献中（elen，Kariv，2004a）使用的完全一致。也就是说，两个实验使用相同的程序，但被试能观察到的前面行动的历史是不同的。为了比较，本文给出了本次实验的结果，同时也列示了杰伦和卡瑞夫文献（elen，Kariv，2004a）中的结果。本文在方法上有两处贡献：第一，给出了如何处理被试只观察其紧前者决策的情况——这种信息结构至今在实验研究中还没有探讨过。第二，本文采用了截点诱导技术，就是被试不直接采取行动，而是先选择截点值，而后由截点决定自己如何行动。

在不完美信息情况下，被试的模仿行为很少发生，甚至比理论预测的还要少。为了更好地理解被试的决策机制，我们考察个体水平（未进行加总平均）的数据。我们发现，在遵循前者行动的被试中，实际行动和理论预测高度一致，但在加总数据中却没有观察到这一点。

不完美信息下的决策当然更复杂，因此，错误也更有可能发生。缘此，我们通过抓住现有理论的理性共同知识这一核心假设，转而考察现有理论的稳健性。引入将被试行为解释为一种广义贝叶斯行为的模型，该广义贝叶斯行为形式结合了其他有限理性的条件。我们有足够的证据表明这种形式的广义贝叶斯行为充分解释了完全信息下实验室中被试的行为，而在不完美信息条件下，被试的行为与这种广义贝叶斯行为不一致。

本文构成如下：第2部分描述了实验设计和程序；第3部分略述基础理论；第4部分总结结论，并给出计量经济分析；第5部分讨论结果；第6部分是结束语。

2 实验设计

除了被试可观察的行动的历史不同外，下面介绍的实验程序与杰伦和卡瑞夫（elen，Kariv，2004a）一样。该实验在纽约大学的社会科学实验中心（C.E.S.S.）的经济学实验室进行。实验中的40个被试从纽约大学经济学本科学生中招募，之前他们没有观察学习方面的实验经历。每组（session）实验由8个被试作为决策者。被试阅读实验说明之后，实验主持者也要宣读实验说明（可致函作者以获得实验说明。）。实验大约持续一个半小时。实验结束后，每个被试将得到5美元的参与费用，同时由于决策正确还可获得报酬，因决策正确获得的平均报酬为19美元。在整个实验过程中，我们保证被试是匿名的。被试间相互影响有可能激发他们行为的一致性，实验中采取有效隔离以减少任何相互影响。

每组实验独立地进行15轮（rounds），每轮分为8个决策顺序（decision-turns），各轮中8个被试的决策顺序随机安排。每轮的第一步，由计算机在均匀分布区间［-10，10］中抽取8个随机数。8个随机数相互独立，且各轮间的抽取也是相互独立的。每个被试仅被告知与其行动次序相对应的那个随机数。该随机数就是他的私人信号（private signal）。实际操作中，被试的私人信号保留到小数点后两位。

被试临近决策前，首先观察该轮中紧前被试的行动；然后在暂不告知其私人信号的情况下，要在［-10，10］之间选择数值（截点值）；提交选择的截点值后计算机向被试显示私人信号，若信号值大于所选的截点值，计算机把他的行动记作A；否则，行动记为B。当且仅当8个随机数之和为正时，行动A是可获利的；当且仅当和为负时，行动B是可获利的。

一轮的所有被试均做出决策后，计算机告诉每个被试这8个随机数之和。如果总和为正或者为0，选择行动A的被试可以获得2美元，否则，什么也得不到。同样地，如果总和是负的，选择行动B的被试可得2美元，而选A则行动者没有报酬。每一轮均重复该过程，15轮完成后，一组实验也就结束了。

3 理论

3.1 贝叶斯解

本小节将花些时间讨论实验室中待检验模型的理论预测值。杰伦和卡瑞夫（elen，Kariv，2004b）给出了该模型一般形式的拓展分析。

为了导出实验设计中决策问题的贝叶斯解，假设8个人接收到在［-1，1］区间（为了容易说明，我们将信号区间标准化为［-1，1］。）内均匀独立分布的私人信号为θ1，θ2，…，θ8。顺序地，每个个体n∈{1，2，…，8}都要做出一个不可撤销的（irreversible）二元决策xn∈{A，B}，当且仅当；8—i=1θi≥0时，行动A可获利；当且仅当；8—i=1θi<0时，B可获利。此外，除第一个决策者外，每个人只能观察到其紧前者的行动。

在给定这些可获信息（私人信息和紧前者行动）的条件下，个体n的最佳决策规则为：

xn=A，当且仅当，E；8—i=1θi｜θn，xn-1≥0

因为个体不知道后继者行动的任何信息，所以（只能就前面已发生的情况考虑自己的行动），

xn=A，当且仅当，θn≥-E；n-1—i=1θi｜xn-1

（已采取行动的前人的私人信息自己不知道，所以要用累加期望，自己的私人信息是确定的，所以直至当下θn＋E；n-1—i=1θi｜xn-1≥0就是要选A行动的最佳条件——译者注）容易得出，最佳决策应依如下形式的截点策略进行选择：

xn=A 如果，θn≥n

B 如果，θn<n（1）

其中，

n=-En-1—i=1θi｜xn-1 （2）

是最佳截点，它积累了由前人行动显露给个体n的所有信息。因为n能够充分刻画个体n的行为特征，那么，截点序列{n}就能够刻画社会学习的特征。我们把这些作为实验设计和分析的基本思想（primitives）。

接下来我们将阐明决策问题的基本情况。第一个个体仅基于其私人信号进行决策。因此，其最佳截点是1=0，这意味着当且仅当θ1≥0时，对他来说采取行动A是最优的，否则采取行动B为最优（因为依（2）式，E；n-1—i=1θi｜xn-1=E［θ1］=0——译者注）。然后第二个人决策，因为第二个人看到第一个人的行动，所以决策以x1=A或x1=B为条件。例如，若x1=A，则依（2）式E［θ1｜x1=A］=E［θ1｜θ1≥1=0］=1/2，因而，对于第二个人，当且仅当θ2≥-1/2时采取行动A是最佳的。同理，若x1=B，则E［θ1｜x1=B］=E［θ1｜θ1＜1=0］=-1/2，故当且仅当θ2≥1/2时，第二个人选A才是最佳行动。因此，由（2）式，第二个人的截点规则（最佳截点选择）是：

2=-1/2 如果，x1=A

1/2如果，x1=B（3）

注意，对任何θ2∈［-1/2，1/2），即使第二个人想通过自己的私人信号做出与前者不同的决策，实际上他都会模仿第一位决策者。若已看到x1=A，且θ2∈［-1/2，1/2），故意选c2≥θ2≥-1/2为B是否可能呢？因为x1的最佳截点选在c1=0，看到x1=A就意味θ1之期望值为1/2，所以由θ2＋E［θ1｜x1=A］≥0可见故意选c2≥θ2为B就要输掉这一轮，即不得不选x2=A。这说明在该区间内采取与紧前者相同行动最佳。其次可顺便说明，若已看到x1=A，且θ2≥1/2，则仍有θ2＋E［θ1｜x1=A］≥0，那么也应选x2=A，综之θ2在≥-1/2的整个均匀分布的3/4范围内对应选择行动都是x2=A，前提是看到了x1=A，所以p（x2=A｜x1=A）=3/4。若已看到x1=B，且θ2∈［-1/2，1/2），则最佳选择只能是x2=B。——译者注）

轮到第三个人做决策。第一个人行动的内在信息被隐蔽了，但他仍可以通过贝叶斯法则（Bayes rule）做一个概率推断。即，通过观察第二个人的行动，第三个人对第一个人可能采取的行动赋予概率值。例如，通过观察x2=A，他可以对x1=A的概率赋值为3/4，已知p（x2=A｜x1=A）=3/4，现须依贝叶斯法则推断p（x1=A｜x2=A）=？因为p（x1=A｜x2=A）=p（x1=A，x2=A）/{p（x2=A｜x1=A）p（x1=A）＋p（x2=A｜x1=B）p（x1=B）}，所以由p（x1=A，x2=A）=p（x2=A｜x1=A）p（x1=A）；及估计的p（x2=A｜x1=A）=3/4，p（x1=A）=p（x1=B）=1/2，p（x2=A｜x1=B）=1/4，可得p（x1=A｜x2=A）=（3/4·1/2）/{（3/4·1/2）＋（1/4·1/2）}=3/4。——译者注）对x1=B的概率赋值为1/4。计算表明，E［θ1＋θ2│x2=A］=5/8，也就意味着如果x2=A，对于任何信号θ3≥-5/8，第三个人采取行动A是最佳的。类似分析表明，若x2=B，对于任何信号θ3≥5/8，第三个人采取行动A是最佳的。因此，根据（2）式，第三个人的截点规则为：

3=-5/8 如果，x2=A

5/8如果，x2=B（4）

注意，第二个人的行动反映了第一个人的部分信息，这样对第一个人行动的更多信息，是通过第二个人的行动显露的。出于上述原因，第三个人比第二个人更有可能模仿前人的行动。例如，如果第一人采取行动A，根据（3）式，对于任何私人信号θ2∈［-1/2，1］，表现的都是第二人模仿前者。接下来，如果第二人采取行动A，根据（4）式，对于任何私人信号θ3∈［-5/8，1］，表现的都是第三个人模仿紧前者。

增加决策者继续该例，这些后续决策者看到紧前者行动的私人信号，且仅据此学习。任一个体n以（n-1）采取行动A或B为条件的截点选择，为两个不同的值，分别表示如下：

n=-En-1—i=1θi｜xn-1=A］

θX- n=-En-1—i=1θi｜xn-1=B〗

注意，如果个体n观察到xn-1=A，他可以在该信息条件下确定xn-2=A或xn-2=B的概率。若xn-2=A，则（n-1）实际的截点是n-1。进一步，私人信号θn-1的期望值可以以n-1，xn-1=A为条件计算出来。运用这些观察结果，杰伦和卡瑞夫（elen，Kariv，2004b）给出n的变动过程规则是：

n=p（xn－2=A｜xn－1=A）{n-1-E［θn-1｜xn－2=A］}+

p（xn－2=B｜xn－1=B）{θX-n-1-E［θn-1｜xn-2=A］}

简化为：

n=1-n-1—2n-1-1+n-1—2〗+1-θX-n-1—2〗（5）

类似的推导也可以适用于θX-n的变动过程。运用对称性，n=-θX-n，截点规则n的动态过程，可以以一种简洁的递推式表述为：

n=-1+2n-1—2

如果，xn-1=A

1+2n-1—2如果，xn-1=B （6）

其中1=0。

从（6）式可以很容易得出，因为对每个n都要算自己的信息截点-1<n<1，所以不可能信息追随。也就是说，每个人在做决策时都不会轻视他的私人信号。然而，根据（6）式，截点规则将信号区间分成3个子集：［-1，n），［n，θX-n）和［θX-n，1］。对于高值信号θn∈［θX-n，1］和低值信号θn∈［-1，n），个体n会根据私人信号并各自采取行动A或B。在被称为模仿集的中间子集［n，θX-n）中，个体做决策时会“忽略”私人信号而模仿其紧前者的行动。此外，由于{n}和{θX-n}分别收敛于-1和1，随着n的增大，模仿集单调递增，而不管行动的实际历史如何。因此，随着时间推移，模仿行为发生的可能性增加。

事实上，在杰伦和卡瑞夫（elen，Kariv，2004b）文献中，我们发现当人数趋于无穷多的时候，模仿集会收敛为整个信号区间。然而，注意这并不意味着截点过程（6）是收敛的。仔细分析表明，截点过程在-1或1处是不稳定的（两点间可能跳跃——译者注）。这意味着总会有个体因为相反的信号而表现为“二元选择行动”和紧前者不一样（因为均匀分布的θn总要依概率落在模仿集区间外，例如当紧前者显示A使截点选在小于零的下方，那么θn落在低值区间就会表现为与紧前者相反的B——译者注）。因此，这时就不会出现羊群行为（当无限多的被试在做决策时忽略其私人信号，我们就说发生了信息追随。当无限多的被试做出相同决策时，没有忽略其私人信号，则发生了羊群行为。）。然而，尽管行为不收敛于标准的羊群行为方式，但是个体行动相似的时间越来越长，穿插其间的翻转行为越来越少。

3.2 完美和不完美信息的对比

接下来我们研究在完美和不完美信息下决策问题的区别。在完美信息下，最佳决策也是如（1）式所示的截点策略，这里的截点决策规则是所有已实现的行动历史的函数：

n=-E；n-1—i=1θi｜（xi）n-1i=1〗

因为在完美信息下，历史作为公共信息是被共享的，个体n的截点n可以被其后继者完全推断出来。换句话说，每个个体可以推出在其之前的任一个体所掌握的东西。结果，在完美信息下，截点规则呈现出如下的递推结构，

n=n-1-E〖θn-1｜n-1，xn-1

由此导出截点过程：

n=-1+n-1—2

如果，xn-1=A

1+n-1—2如果，xn-1=B（7）

其中1=0。

与不完美信息情况相同，对任何n都要算自己的：-1<n<1，因此容易知道不可能是信息追随。然而，截点过程具有鞅性质E［n+1｜ n］=n，根据鞅收敛定理，在固定点-1和1附近，截点过程是随机稳定的。进一步，由于截点过程收敛意味着行动收敛，在有限的时间内行为会稳定下来。因此，在完美信息下，信息追随不可能产生，但是羊群行为肯定产生。

下面根据前面的说明整理我们的想法。在完美信息下，因为第一个人的行动是公共信息，为其后的两人所知，所以第三个人观察到的信息包含第二个人据以决策的基础。因此，根据（7），简单的计算便可得到第三个人的截点规则：

3=-3/4 如果，x1=A，x2=A

-1/4如果，x1=B，x2=A

1/4如果，x1=A，x2=B

3/4如果，x1=B，x2=B

如果增加人数继续同样的分析，我们会发现，若前三个人选择A，第四人的截点是4=-7/8；若前四个人选择A，第五人的截点是5=-15/16，依此类推。因此，选择同样行动A的连续几个人显露出的私人信息更少，这使得跟着做决策的个体很难不选择行动A。

另一方面，如果在前三个人选择A之后第四个人选了行动B，第四人的决策表明其私人信号θ位于区间［-1，-7/8），第五个人的截点是5=1/16。因此，连续选择相同行动的人越多，模仿和偏离所揭示的信息之间非对称性越大。注意一致行动的首个偏离者（deviator）导致其后继者轻微地倾向于继续偏离，这一现象在文献中被称为翻转原理（overturning principle）。

相反，在不完美信息下，翻转原理具有更加极端的性质。为了说明这一性质，假设前三个人采取行动A。这样，根据（6）式第四个人的截点是4=-0.695。现在，如果第四个人有相反的信号θ4∈（-0.695，-1］，选择表现为B从而发生偏离。而且，由于这一偏离没有被第五个人观察到，此时他设置的截点会靠近1，具体为5=0.743，从而剧烈地翻转。因此，第四个人的偏离导致第五个人很难不跟从这种偏离。

总之，根据翻转原理，无论是在完美信息还是在不完美信息情况下，偏离者都会重新引领后继者的行动。不过这两种情况有本质的区别。在完美信息下，由于之前所有行动都是公开的，所以谁采取偏离行动都可以被后继者认出来。结果，偏离很清楚地显示出与偏离者私人信号有关的信息，此信息与之前累积的公共信息相比略微占优（meagerly dominate）。因此，后继者将轻微地倾向于加入偏离。然而在不完美信息下，个体并不知道其紧前者是模仿还是偏离行动。因此，偏离者的行动是其紧后者唯一可用来推断整个行动历史的统计信息。从而，跟从偏离者的个体会踊跃地加入这种偏离。4 实验结果

4.1 描述性统计

4.1.1 群体行为

如果被试的截点就定在－10或10，那么不管自己的私人信号是多少行动都一定是A或B，这时就称其为追随行为（cascade behavior）。如果不是端点，而是在（－10，10）之内选截点，这意味着存在一部分信号使他的行动是A，另一部分信号使他的行动是B，而若最终的私人信号使得他与紧前者的行动相同，那么该被试就参与了羊群但未发生追随行为（joins a herd but does not engage in cascade behavior）。最后，在实验室中从某一被试开始，其后其他人连着发生追随行为，则称为信息追随（自某人开始其后连续几人均选端点——译者注），而从某一被试开始，随后其他人接连都采取相同行动，我们就说发生了羊群行为。

整个实验共包含75轮，其中我们观察到，出现至少包含5个被试的羊群有8轮（10.7%）。在这8轮中，有2轮8个被试全部都采取了相同的行动，有1轮后面6个被试行动相同，5轮的后面5个被试行动相同。除了一个之外的所有羊群行动和（2）所给的最佳截点规则是一致的。此外，即使被试拥有的决策历史信息不完美，所有羊群却都选择了正确的行动。相反，理论预测是：即使信息不完美，羊群行为的轮数也应该超过一半（理论预测应有63.4%），而羊群行为中的19.8%将不满足贝叶斯推断下的最佳决策（我们借助于仿真计算出了概率，这里私人信号与具体的真实状况是负相关的。这种情况使得问题难以分析解决。仿真由MatLab软件进行。实验开始时从［-10，10］均匀分布上抽取1个有10个信号的向量。然后我们依截点过程汇集由该向量产生的行动。实验不断重复，直到再增加第107次实验的正确行动平均个数上的边际变化小于10-5。）。最后，既然羊群行为很少发生，很明显，翻转就很频繁。除了决策顺序的第一个人以外，整个实验共包括525个决策点（decision point，525=7×15×5），这样的翻转发生了234次（39.0%），而理论预测发生翻转的比重只占总决策点的19.0%。

例如，在轮1.7和轮4.11中，信息追随没有发生，然而所有的被试都发生了羊群行为。同时，尽管理论预测信息追随不会发生，但实验中仍然观察到了信息追随（自某人开始其后的每人均选端点）。共有18轮发生了信息追随（24.0%），18轮中有2轮最后的两个被试发生了追随行为（选端点），在另外的16轮中只有最后一个被试发生追随行为。

这些轮中出现了追随行为。此外，还有85个决策点发生了不属于信息追随的追随行为（按前面定义，追随行为是指截点取极端；信息追随是指连续出现截点取极端）。总体上，600个决策点中观察到105次追随行为（17.5%）。然而，在这105个决策点中有65个是由这样一些少数被试引起的，这些被试在他们参与的大多数决策轮中都采取了追随行为（40个被试中有2人在所有轮中发生追随行为，1人在11轮中发生追随行为，1人在9轮中发生追随行为，1个在8轮中发生追随行为，1个在7轮中发生追随行为。）。

并且与杰伦和卡瑞夫（elen，Kariv，2004a）中的结果进行了比较。在完美信息下，75轮中共观察到27次羊群行为（36.0%），在一半的羊群行为中，所有的被试行动相同。此外，除一个之外的其他羊群都采取了正确的决策。在完美信息下有26轮观察到信息追随（34.7%），而这至少从理论上来看是最意想不到的。因此，我们做出这样的结论：尽管从理论观点来看，追随行为是个错误，但它确实是一种行为现象。相反，在不完美信息下，羊群行为和追随行为发生频率都要小得多。最后，所有被试因正确决策而获得的平均所得在不完美信息下为18.8美元，在完美信息下为22.0美元，完美信息比不完美信息高出17%。二元Wilcoxon检验表明，在5%的显著性水平上，被试报酬的样本在完美和不完美信息下有明显区别。

相对于完美信息而言，不完美信息下报酬的减少主要原因在于羊群行为的减少。注意，不完美信息下羊群的数目比完美信息下少了71.4%。很明显，在完美和不完美信息这两种情况下，除去一个之外的其他羊群行为都是正确决策（correct decision，符合理论模型）。然而尤为有趣的是，理论预测的一致行为也可能出错（符合理论模型只是期望值正确，实际还是应该有输掉的出错比例），这一点在很多实验中得到了证实。我们认为报酬差异的可能原因是连续的信号区间的增大，被试不是直接采取行动而是可以通过选择截点策略来微调他们的决策。（elen，Kariv，2004a）不过，仿真模拟意味着理论上羊群行为正确（即可获利的）的概率在完美和不完美信息下分别是62.9%和50.8%，羊群行为错误的概率在完美信息下为20.0%，在不完美信息下为12.5%。

4.1.2 个体行为

为了整理截点数据并对其进行深入考察，我们首先对决策进行定义。如果被试选择的截点符号与紧前者的行动一致，则被试所做的决策被定义为一致决策（concurring decision）。比如，被试观察到紧前者采取行动A（B）然后选择了负的（正的）截点，那么他将倾向于与之一致的行动，因为选择负的（正的）截点意味着采取行动A（B）的概率就更高。同理，若被试观察到行动A（B），而选择正的（负的）截点，那么他便和紧前者不一致，我们称这样的决策是相反决策（contrary decision）。最后，若被试选0作为截点，则称为中性决策（neutral decision）。中性决策表明被试与紧前者的行动既非赞同，也非否定，只是简单地基于个人信息进行选择。

在所有决策顺序中，把第一决策点剔出，剩下的所有决策点中有44.2%为一致决策，39.2%为相反决策，还有16.6%为中性决策。因此，倾向于跟从紧前者行动的被试远少于理论预测。除了对一致、相反、中性决策点总数目进行统计外，我们还对被试在选择截点时与紧前者的行动一致或相反的频数分布进行了考察。统计截点设置与观察到的行动不一致少于2轮，以及3轮到5轮等的被试的百分数。注意，被试行动往往倾向于不一致。事实上，只有20%的被试设置的截点和他们观察到的行动不一致少于2次，40%的被试设置的截点有一半的次数和他们观察到的行动不一致。这一迹象强烈表明，被试行动的方式和理论预测不一致。

截点符号表明一致或不一致，这只说明了部分情况，因为它没有体现出一致或相反的强度，这个强度可以通过截点集的大小加以衡量。例如，如果被试观察到行动A，而设置了一个接近-10的截点，这就意味着被试不但在方向上赞同他所观察到的行动，而且他在意愿上会较为强烈地偏好这么做，因为此时他几乎肯定采取行动A。相反，如果他选择接近0的负截点，则很明显地表明被试在赞同前人的程度上较弱。

因为截点策略关于0对称，我们把被试给出的数据按照如下方式进行变换处理。对于一致决策点取截点的绝对值，对于相反决策点取截点绝对值的相反数。例如，如果被试观察到行动A，而且选择了-5为截点，由于他与前人决策一致，所以我们把该截点取为5。另一方面，如果他选择5为截点，我们就取-5，因为他与前人决策相反。

依决策轮次给出了理论的截点以及一致决策截点的平均值。注意，如果被试的截点设置和观察的行为一致，此时截点值的大小与理论预测值具有显著的一致性。换句话说，一旦被试决定模仿前者的行动，他们就以正确的强度按照贝叶斯理性行事，因为此时被试选择的截点和理论预测值非常接近。然而，如果我们把中性决策放入观测样本，截点走势发生逆转，尤其是在最后的决策点中更是如此。

目前为止，我们都在关注一致决策。然而决策集中还有一个补集，即相反决策。一旦被试决定不跟从前者行动，此时不一致的强度也可以通过一些途径测量出来。用两种方法表明了不一致的强度：首先，我们把被试实际选择的截点和根据理论截点规则得到的截点之间的绝对差额表示为不一致强度1（Disagreement 1）；其次，把被试选择的截点和0的绝对差额表示为不一致强度2（Disagreement 2）。注意到，当被试不同意他的前者时，他们会以一种非常极端的方式这么做，所以不一致的强度非常之大。

以上列出的所有结果都是把数据分为一致决策或相反决策进行考察的。如果我们不以一致或不一致为区分条件分别考察数据，那么整体数据与理论预测就有显著差异。事实上，被试根据自己的私人信号获得的启发胜过实验中作为预测的贝叶斯行为。然而，与理论预测的差异实际上是由一致决策和相反决策的分布的合成差异，而非被跟从的前人行动的说服力存在差异。

首先设置两个虚变量，当决策轮为每组实验中的前5个或后5个时这两个虚变量分别取值为1，并且对被试的截点进行前文所述的转换，然后我们把转换后的截点值对截点所在决策轮次和两个虚变量进行回归（被试的私人信号是不受控制的，因为被试在观察了前者行动后和获得自身的私人信号前，他要选择一个截点。）。注意到由于每个系数都不是显著不为0，所以截点值并没有如预想的在后面的决策轮中会增大。因此，回归结果清楚地表明了，当决策轮不断重复时，前人行动对被试的说服力并没有随之增加。

（1）把转换后的截点对其所在的决策顺序点和两个虚变量FR和LR做回归分析，FR和LR分别在决策轮为前五个和后五个时取值为1。

（2）GLS随机作用（混合的）估计量与对独立数据和群数据（clustered data，在同个被试中不独立但在不同被试间独立的数据）所做的稳健变化估计量产生了相似的结果。

与杰伦和卡瑞夫（elen，Kariv，2004a）中描述的个体行为进行比较可以看出，完美信息表现为理性的增强。为了论证这一点，在每种信息结构下，对每个被试而言，我们计算出被试报告的截点和理论给出的截点之间的均方差（MSD）。在任何一种信息结构下，MSD的平均值越小，被试行为也就越接近理论预测。当使用完美信息数据计算MSD值时，MSD的分布较大地向左移动了，因此在完美信息下被试的行为与理论预测有更高的一致性。Kolmogorov-Smirnov检验在5%的显著性水平上证实了这个观察结果。

4.2 计量经济学分析

为了解释实验室中的行为，在杰伦和卡瑞夫（elen，Kariv，2004a）的文献中，我们检验了一个模型，该模型把被试行为描述成结合了对他人理性限制的一种形式的广义贝叶斯行为。有力证据表明，这种类型的贝叶斯理性解释了实验中的行为。为了进行比较，我们在此重复推导过程。

假设被试可以估计其他人的错误，并且在处理前者行动所揭示的信息时考虑到这一点。我们试图用式子表示这一点，所以在此估计了一种递归模型，这个模型将早期决策的出错概率考虑在内。这种方法使得我们可以计算出贝叶斯理性能够在多大程度上解释实验室中的行为。安德烈斯和霍尔特（Anders，holt，1997）也使用了这种方法，但是他们使用了被试的预期报酬，而截点诱导技术使我们能够递归地估计出截点的决定过程，这一过程可以根据决策错误和独立震荡进行调整。

为此我们假设在每个决策顺序点n中，个体符合贝叶斯理性并能理性地计算其截点的概率是pn，而他是噪声的概率是（1-pn），也就是说他的截点是从位于［-1，1］（为了说明的方便，我们再一次对信号区间进行标准化）且平均值为n的分布函数Gn中随机抽取的。假设其他人不能观察到个体行为是否存在噪声，但是序列{pn}和{Gn}是为所有人知道的。此外，我们假设理性个体可以在理性截点上下摆动，也就是说他们的截点可以包含不相关的少许计算或报告错误。为了精确计算，我们把理性个体在决策顺序n中报告截点表示为n+n，其中n服从均值为0、方差为σ2n的正态分布。注意，理性个体的错误是由围绕理性截点的上下摆动引起的，即他们的截点值以n为均值，然而噪声个体则随机做出决策。

在模型中加入噪声个体后，n的运动法则变为：

n=-{pn-1E；n-1—i=1θi｜xn-1=A〗+（1-pn-1）

E〖θn-1｜Gn-1，xn-1=A〗}

其中，

E〖θn-1｜Gn-1， xn-1=A〗=∫1-11+x—2dGn-1（x）=1+n-1—2

根据（5）式，我们得到：

n=pn-11-n-1—2n-1-1+n-1—2〗+1-θX-n-1—2〗-

（1-pn-1）1+n—2

类似的分析同样适用于 θX-n的运动规律。

在这些假设下，任一决策顺序n和轮次i的预期截点是：

yin=（1-pn）n+pnin+pnin

其矩阵形式为，

yn=（1-pn）n1+pnn+pnn

其中yn，1，n和n依次是分量为yin，1，in和in的向量，由此导出如下的计量经济学表达式：

yn=αn1+βnzn+εn （8）

其中，

αn=（1-pn）n，βn=pn，εn=pnn

对于任何一轮i，z1=0，任何顺序n>1，向量zn的第i个分量是：

zin=z-n 如果， xin-1=A

zX-n如果，xin-1=B （9）

其中，

z-in=n-11-z-in-1—2+1-zin-1—2in-1-1+zin-1—2-

1-n-1+n-1—2

类似的分析也适用于zX-n（在完全信息条件下，elen和Kariv（2004a）也使用了类似的计量规则（8）。但是对于任何一顺序n>1，试错调整规则（error-adjustment updating rule）（9）建立了下面的递归结构：

zin=zin-1-1+（n-1+n-1zin-1）—2

如果，xin-1=A

-1+（n-1+n-1zin-1）—2如果，xin-1=B）。

注意，参数是递归地估计出来的。也就是说，第一个决策顺序中估计的参数1和1会在估计第二个顺序中参数α2和β2时被用到，依次类推。这样，在每一个顺序n中，计算最佳截点in或者θX-in的估计值时要用到前一决策顺序中n-1和n-1的估计值，in和θX-in分别用z-in和zX-in表示出来，z-in和zX-in和依次组成了估计式（8）中该决策轮的独立变量。

系数β是被试在决策顺序n中理性的概率，β可以看做是描述被试赋予行动历史所揭示信息的平均权重的参数。同时，系数α可以看做是描述信息过程偏差的参数，比如对某一特定行动的盲目倾向。例如，因为当βn<1时，n=αn/（1-βn），任何αn<0（αn>0）都意味着顺序n的被试是倾向于行动A（B）的。

当信息过程偏差递减，即αn→0，βn→1（σ2n→0）时，行为趋向于贝叶斯理性。也就是说对于所有n，当αn=0，βn=1时，根据（8），实验室中的决策完全符合由（6）给出的最佳历史可能截点过程。类似地，当αn→0，βn→0时，行为趋向于随机。注意，当αn=βn=0（且σ2n→0）时，方程（8）要求预期截点为0，这是仅仅基于私人信息的一个选择。一般的，任何βn<1表明相对个体的私人信息而言，在顺序n内个体人数越多，他人的行动历史所揭示信息的价值就越少。对于其他人的决策可能产生错误的信念，这似乎是有道理的回应。对所有n有αn=0且βn=β以及β∈［0，1］取不同值时的情况。

并与杰伦和卡瑞夫（elen，Kariv，2004a）的结果进行比较（广义最小二乘（GLS）随机效应估计［random-effects（mixed）estimators］和对于独立数据和群组数据的强方差估计（robust variance estimators）产生了类似的结论。）。注意在不完美信息下，n和n系数在所有顺序中都不是显著地不为0。因此，我们推断在不完美信息下，完全跟从自己的信号所获得的启发胜过作为预测的贝叶斯规则。相反，在完美信息下，尽管按照贝叶斯条件，被试赋予自己的信息权重过多，赋予公共信息的权重过少，但是他们却越来越相信其之前的行动历史所揭示出的信息，这是因为n表现为上升趋势，即随着时间的推移，被试倾向于更加接近贝叶斯更新。

（1）不完美和完美信息下的计量经济学估计结果；（elen，Kariv，2004a）

（2）不完美信息下，所有决策顺序点中的两个系数都非显著地不为零，而在完美信息下β系数有潜在的上升趋势，所以经过一段时间后被试将趋向更加坚持贝叶斯更新；

（3）GLS随机作用（混合的）估计量与对独立数据和群数据所做的稳健变化估计量产生了相似的结果。

总而言之，随着时间推移，在完美信息下，被试更加依赖于行动历史所揭示的信息，并且越来越有可能模仿他们的前者，而在不完美信息下，被试并没有倾向于越来越依赖前人行动所揭示的信息。

5 讨论

完美和不完美信息下的决策问题在根本上是不同的，这种不同来源于两点：

首先，在完美信息下，行动历史作为公共信息被所有后继者共享，因此，每个人可以完全地推断出其任一前者所观察到的信息。相反，在不完美信息下，所有人只能从其紧前者的行动中获知信息。结果，任何行动历史的子集都没有作为公共信息被共享，因此，每个人都会对其前者观察到的信息作出不同的推断。

其次，在完美信息下，被试可以根据两种行动的已发生频率获得有价值的信息，而在不完美信息下，没有人能够分辨出其紧前者是偏离者还是模仿者。因此，贝叶斯推论归纳出一个以紧前者的行动为条件所有可能历史的概率值，也就是说行动历史所包含的信息以下面的这种方式被隐蔽了——即被试对之前所有人均与紧前者行为相同的可能事件给予相当大的权重。换句话说，由于贝叶斯个体试图通过利用紧前者的行动来获取所有前者的信号内容，所以他们越来越有可能模仿。

我们实验结果的模式表明了两个重要的结论。第一个涉及群体行为，不完美信息下的羊群行为的发生频率比完美信息下的低了很多，甚至低于理论预测。第二个结论和个体行为有关，这也就从较小层面上给出了第一个观察结果的可能解释。群体行为的差异实际上是个体行为差异的组合，表现了决策在一致和相反两种类型上的分布情况，这种差异并不是由被试希望跟从的前人行动的说服力不同引起的。

不完美信息下的实验结果表明个体行为甚至也很少符合广义贝叶斯行为。从这些结论来看，有人可能提出这样的疑问，即我们如何把上述的这些结论与杰伦和卡瑞夫（elen，Kariv，2004a）在完美信息下得到的结论整合起来。很明显，在信息受到限制的环境中，被试不太可能理性行动也是能被理解的。为了从理论上组织实验数据，并深入考察我们所观察到的行为，我们建立了一个改进的贝叶斯模型，这个模型提供了一个框架，可以使我们理解完美和不完美信息下个体行为的差异。

在标题相同的CESS工作论文中，我们对原始模型进行了改进，修正后的模型舍弃了共同知识的理性假设（assumption of common knowledge）。我们假设部分个体是噪声，并且别人无法观察到个体行为是否带有噪声，而噪声在所有被试中是独立分布的。为了能够精确计算，我们假设噪声有两种形式，它们处于两个相反的极端，一种噪声个体以相等的概率在-1和1处选择截点从而随机地采取行动，另一种噪声个体只是简单地把截点设置为0从而完全忽略了历史只是根据私人信号来决策。正是因为如此，第一种类型的噪声个体的行动并不能给后继者以任何信息，而第二种类型的噪声个体的行动则能揭示出更多的关于其私人信号的信息。

我们可以看出，带有这两种极端形式噪声的不完美信息模型带有更加偶发的不稳定性，这是因为单个行动的信息量一定更少。换句话说，由于积累的信息大大减少，理性个体不大可能像在无噪声模型中那样模仿他们的前者。所以，我们观察到一致行为的时间长度变短，而翻转的发生频率却比理论预测的更加频繁。相反的，如果加入这两种形式的噪声，我们发现，在完美信息下个体将越来越相信他人行动所揭示出的信息。

总结一下，明显地，某些有限理性的多重综合和对他人理性的限制能够很好地刻画这种行为的性质。然而，从整体考虑，如果把这些特性都加入到广义贝叶斯行为，这样修正后的广义贝叶斯行为能够成功地预测完美信息下被试的行为。相反，在不完美信息下，被试行为甚至与这种修正后的广义贝叶斯行为也不一致。

6 结束语

本文检验了一个不完美信息下的观察学习模型，该模型从理论上得到的行为和在完美信息模型中的行为有很大不同，并且在某些方面比完美信息下的行为更极端。我们使用了连续信号和离散行动设置，以及截点诱导技术，这使得我们能够检验出贝叶斯理性能够在多大程度上模拟实验室中观察到的实际行动。

我们的结论可以归纳为如下几点：首先，不完美信息下羊群行为的发生频率远远低于完美信息，甚至低于理论预测值。其次，理论预测的差异实际上是把一致决策和相反决策这两种类型合并后的合成差异，而非被跟从的前人行动的说服力存在差异。实际上，在一致决策这个子集中，实际结果和理论预测有显著的一致性。

这个实验检验了完美信息条件下观察学习实验所得到结果的稳健性，并且可以得到明确的、富有启发的（suggestive）预测。当被试能够观察到的最近的行动个数不止一个时，我们很自然地就会想到这些结果是否依然具有稳健性。我们的分析没有完全阐明这一点，因为如果个体观察到的行动个数超过一个时，决策规则的结构将会相当的复杂。所观察到的前人行动数目的增加是否会导致截然不同的结果，这一点尚不清楚，因为不同的信息结构可能导致不同的结果。这有待于进一步的研究。

参考文献

Allsopp，L.，& hey，J.（2000）：“Two experiments to test a model of herd behavior，”Experimental Economics，3，121-136.

Anderson，L.（2001）：“payoff effects in information cascade experiments，”Economic Inquiry，39，609-615.

Anderson，L.，& holt，C.（1997）：“Information cascades in the laboratory，”American Economic Review，87，847-862.

Banerjee，A.（1992）：“A simple model of herd behavior，”Quarterly Journal of Economics，107，797-817.

Bikhchandani，S.，hirshleifer，D.，& Welch，I.（1992）：“A theory of fads，fashion，custom，and cultural change as informational cascade，”Journal of political Economy，100，992-1026.

Bikhchandani，S.，hirshleifer，D.，& Welch，I.（1998）：“Learning from the behavior of others：conformity，fads，and informational cascades，”Journal of Economic perspective，12，151-170.

Chamley，C.（2003）：Rational herds：Economic Models of Social Learning，NewYork：Cambridge University press，2003.

Chamley，C.，& Gale，D.（1994）：“Information revelation and strategic delay in a model of investment，”Econometrica，62，1065-1085.

elen，B.，& Kariv，S.（2004）：“Distinguishing informational cascades from herd behavior in the laboratory，”American Economic Review，94，484-498.

elen，B.，Kariv，S.（2004）：“Observational learning under imperfect information，”Games and Economic Behavior，47，72-86.

Gale，D.（1996）：“What have we learned from social learning？”European Economic Review，40，617-628.

Gul，F.，& Lundholm R.（1995）：“Endogenous timing and the clustering of agentsdecisions，”Journal of political Economy，103，1039-1066.

hung，A.，& plott，C.（2001）：“Information cascades：replication and an extension to majority rule and conformity-rewarding institutions，”American Economic Review，91，1508-1520.

Kübler，D.，& Weizscker，G.（2004）：“Limited depth of reasoning and failure of cascade formation in the laboratory，”Review of Economic Studies，71，425-441.

Lee，I.h.（1993）：“On the convergence of informational cascades，”Journal of Economic Theory，61，396-411.

Smith，L.，& Srensen，p.（2000）：“pathological outcomes of observational learning，”Econometrica，68，371-398.

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈