以囚犯困境为例

时间：2023-03-03 百科知识版权反馈

【摘要】：第五章有关囚犯困境的分析表明，在一次性博弈中，双方最后的均衡结果是，虽然是一个对双方更好的结果。表18.1也是一个囚犯困境的博弈。表18.1　囚犯困境在无限次的重复博弈中，每一个参与者都有无数种策略选择，以下的一些策略选择是在现实中容易出现的。他们把自己的策略编入计算机程序，参与者一起开始玩“囚犯困境”的游戏。

以囚犯困境为例_用博弈的思维看世界

第五章有关囚犯困境的分析表明，在一次性博弈中，双方最后的均衡结果是（坦白，坦白）（见表5.2），虽然（抗拒，抗拒）是一个对双方更好的结果。表18.1也是一个囚犯困境的博弈。双方合作是最好的结果，但是彼此背叛是均衡的结果。如果博弈不是一次性的，那么每个人就有了更多的策略选择。

表18.1　囚犯困境

在无限次的重复博弈中，每一个参与者都有无数种策略选择，以下的一些策略选择是在现实中容易出现的。

（1）好人策略。无论对方如何选择，每次都选择合作。不难想象，如果你是这种策略选择，相信对方每次都会选择背叛。或许，你会对此耿耿于怀，心想对方为什么就没有被感动的那一天？我想说的是，这不就是人们常说的“人善被人欺，马善被人骑”吗？

（2）曹操策略。无论对方如何选择，每次都选择背叛。为避免好人策略的悲惨结局，你也可以选择曹操策略。那就是所谓的曹操名言：“宁可我负天下人，不可天下人负我！”可以想象，曹操策略的结果是对方也一定会选择背叛。

（3）冷酷策略（grim strategy），又叫触发策略（trigger strategy）。首次选择合作，只要对方合作，就选择合作；一旦对方选择背叛，则永远选择背叛。冷酷策略是一种介于好人策略与曹操策略之间的一种策略。冷酷策略的最大特点是不给对方任何重归于好的机会。换句话说，冷酷策略是最记仇的，一次受伤害，终生牢记。这就是所谓的“一个馒头的血案”。

（4）心太软策略。首次选择合作，只要对方合作，就选择合作，一旦对方连续背叛两次才永远选择背叛。相对于冷酷策略，心太软策略的好处是至少给对方犯错误的机会。相伴随的坏处是总给对方背叛自己的机会。

（5）一报还一报（tit-for-tat）。首次选择合作，只要对方合作，下一次就选择合作；只要对方背叛，下一次就选择背叛，即后续的选择始终与对方上一次的行动一样。一报还一报是介于冷酷策略和心太软策略之间的策略。相对于冷酷策略，它不记仇，总是愿意给对方改正错误的机会；相对于心太软策略，它又很容易被激怒，不愿意让对方占太多的便宜。

（6）道宁策略（downing）。第一步选择背叛，然后每走一步，估计自己合作或背叛后对方合作的概率，如果对方似乎仍然倾向于合作，则选择背叛；反之，选择合作。

（7）乔斯策略（joss）。试图偶尔背叛而不受惩罚。若对方背叛则马上背叛，但十次有一次是对方合作之后却选择背叛。

（8）精神病患者（醉汉策略）。每次随机选择合作或背叛。醉汉策略的最大特点是这是一个不知好歹的人。那么，对方必然会选择曹操策略。试想，一个不知好歹的人，有谁愿意和他好呢？

在以上所列举的那么多策略中，到底什么样的策略是最值得我们效仿的呢？换句话说，当所有的策略彼此博弈后，哪种策略最后的得分是最高的呢？

这个问题的答案应该归功于美国密西根大学一位叫做罗伯特•爱克斯罗德的人。爱克斯罗德是一个政治科学家，为了进行关于合作的研究，他组织了一场计算机竞赛。这个竞赛的思路非常简单：任何想参加这个竞赛的人都负责扮演“囚犯困境”案例中一个囚犯的角色，提供一个相应的策略。他们把自己的策略编入计算机程序，参与者一起开始玩“囚犯困境”的游戏。每个人在每一步都要在合作与背叛之间作出选择。

在爱克斯罗德的竞赛中，总博弈的次数是200次。比赛的分数是这么计算的：如果两个程序都合作则各得3分，如果都背叛则各得1分，如果一方背叛而另一方选择合作，则背叛方得5分而合作方得0分。

竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略，爱克斯罗德自己则递交了一个醉汉策略的程序。本次竞赛的桂冠属于其中的一报还一报（tit-for-tat）策略。这是多伦多大学心理学家阿纳托•拉帕波特提交上来的策略。当然，因为只有为数不多程序参与了竞赛，一报还一报策略的胜利也许只是一种侥幸。

第一次竞赛结束后，艾克斯罗德组织了更大规模的第二次竞赛，共有63位参赛者，其中包括第一次比赛的所有参加者。赛前，艾克斯罗德特地给每位参赛者寄去了关于第一次比赛的分析报告，鼓励参赛者设计更加巧妙的策略。每次博弈的次数不是完全确定的，随机抽样决定，以便更符合现实的情况，期望中数为200次，事后统计的平均次数是151次。

第二次竞赛新增的策略中具有代表性的策略有：

（1）TF2T策略（tit for 2 tats）。较为宽宏大量的TFT，仅当对手连续背叛两次以上才选择背叛，其他与TFT相似。它的总得分排第24名。

（2）检验者策略（tester）。这是被设计成专门欺负软骨头的一个策略。第一步选择背叛，然后观察对方的态度。如果对方背叛，就改为按TFT行事；如果对方不背叛，则在第2、3步合作，但以后每隔一步就背叛一次。它的总得分排第46名。

（3）哈灵顿策略（harrington）。首先合作，当发现对方一直在合作，它就突然来个背叛。如果对方立刻报复它，它就恢复合作；如果对方仍然合作，它就继续背叛。它排第8名。

第二次竞赛的结果仍然是“一报还一报”策略再次荣获总分排名第一。通过对两次竞赛结果的分析，艾克斯罗德总结了“一报还一报”策略的4个重要特点：

（1）善良性。即不做首先的背叛者。在实验中，排在得分前8名的8个策略都是善良的规则；实验中所有善良策略的得分在472～504分，而不善良策略的最高分只有401分。道宁策略本来设计得比较巧妙，但第一步的背叛使之很容易陷入被别人报复的泥潭，最后得分却很低。

（2）可激怒性。即应该针对对手的背叛行为给予报复。可激怒性太弱的策略易受到非善良策略的剥削，像乔斯策略就可以占这些策略的便宜。但乔斯策略如果遇到TFT这样马上报复的、可激怒性强的策略，则得分迅速降低。

（3）宽容性。不因对方的一次背叛，就没完没了地报复。只要对方放弃背叛，就原谅对方，继续与其合作。一报还一报只记住对方上一次的选择，就此不断给对方改正的机会。缺乏宽容性的策略，会使双方合作的高收益无法实现。

（4）清晰性。过于复杂的策略不容易被辨识，从而容易让对方认为是醉汉策略，那么对方就很容易采取曹操策略，至少会让非善良策略占便宜。“一报还一报”的行为方式很容易被辨识：它不欺负人家，也拒绝老是被欺负（以一次为限）。一旦被识别，对方就容易看出与之相处的最好方式是选择合作。

一报还一报策略的胜出对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作的进化》一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的“自己活，也让他人活”的原则。当时前线战壕里的军队约束自己不开枪杀伤人，只要对方也这么做。使这个原则能够实行的原因是，双方军队都已陷入困境数月，这给了他们相互适应的机会。

一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多：真菌从地下的石头中汲取养分，为海藻提供了食物，而海藻反过来又为真菌提供了光合作用；金蚁合欢树为一种蚂蚁提供了食物，而这种蚂蚁反过来又保护了该树；无花果树的花是黄蜂的食物，而黄蜂反过来又为无花果树传授花粉，将树种撒向四处。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈