经典博弈模型

时间：2022-08-23 百科知识版权反馈

【摘要】：重大案件中的两个嫌疑犯分别被关在两个单独牢房中。博弈的结果是两个博弈方同时选择坦白的策略,都被判5年。囚徒困境是博弈论中经典、著名的博弈,可以扩展到许多经济问题,以及各种社会问题,可以揭示市场经济的根本缺陷。零和博弈的特点是博弈双方的得益和为零,具有对称性,有对赌的意义,我国台湾地区至今把博弈称为赛局。赌胜博弈一般来源于游戏,也是博弈的本质所在。这里介绍几个典型的零和博弈。

一、囚徒困境模型

最著名的策略型博弈之一是“囚徒困境”。它的名字来自嫌疑犯的故事,其重要性在大量情形中多有体现,参与者面临着与故事中嫌疑犯同样的动机。

(一)囚徒困境

重大案件中的两个嫌疑犯分别被关在两个单独牢房中。有足够的证据证明两个人都犯有较轻的罪,但是没有足够的证据证明两人中的任何一个人是主犯,除非至少一个人招认,否则不能将二人判有罪。警察把二人分别带到不同的房间,告之后果:如果二人均不坦白,将被判入狱一年;如果双方均坦白,将被判入狱5年;如果一方坦白,另一方不坦白,坦白一方立即释放,另一方判入狱8年。由理性人的原则,两个嫌疑犯选择策略的原则是最大化个人利益,他们应该如何选择自己的策略?每个人的得益不仅仅与自己的策略选择有关,也与对方的策略选择息息相关。每个博弈方在做选择时,必须考虑到对方可能的选择情况和对自己的影响。

这个情形可以建模为策略型博弈:

博弈方:两个嫌疑犯A和B。

策略:每个嫌疑犯的行动集是(坦白,不坦白)。

收益:对应于每种策略组合,有相应的收益结果。

策略组合:嫌疑犯A和B从可以选择的策略中选择并实施,有四种情况(括号中,前面是A的策略,后面是B的策略)。

每个策略组合对以下A的结果,从优到劣,依次为:

(坦白,不坦白),结果是A被释放;

(不坦白,不坦白),A被判刑1年;

(坦白,坦白),各被判5年;

(不坦白,坦白),A被判8年。

同理,每个策略组合对以下B的结果,从优到劣,依次为:(不坦白,坦白)、(不坦白,不坦白)、(坦白,坦白)、(坦白,不坦白)。

我们可以用图来简洁地表示这个博弈。这个博弈是斯坦福大学的客座教授数学家图克(Tucker)于1950年提出的,他的这个故事是为了向斯坦福大学的一群心理学家解释什么是博弈论。这个故事反映了博弈问题的根本特征,这个模型可以有效地解释很多经济现象,研究经济效率问题。

该图称为博弈矩阵,将博弈的三要素都在图中体现出来。这种表示方法是由托马斯·谢林(Thomas Schelling)首先提出的。他说:“假如真有人问我有没有对博弈论作出一点贡献,我会回答有的。若问是什么,我会说我发明了用一个矩阵反映双方得失的做法……我不认为这个发明可以申请专利,所以我免费奉送,不过,除了我的学生,几乎没有人愿意利用这个便利。现在,我也供给各位免费使用我发明的矩阵。”

博弈阐述如图1-2所示。在这个图中,两行分别对应于博弈方A的两种可能的策略,两列分别对应于博弈方B的两种可能的策略,在每个方框中的数是这个方框所对应的策略组合的收益函数,其中博弈方A的收益列在前面,博弈方B的收益列在后面。

pagenumber_ebook=20,pagenumber_book=13

图1-2　囚徒困境

囚徒A独自在房间里思考:如果囚徒B选择不坦白,在第一列表格中,竖着比较前面A的收益,坦白的收益为0,大于不坦白的收益为-1,坦白是A的上策;如果囚徒B选择坦白,在第二列表格中,竖着比较前面A的得益,坦白的收益为-5,大于不坦白的收益为-8,坦白还是A的上策。无论B选择哪个策略,A的选择是唯一的,坦白是上策。

同理,囚徒B在另一个房间的思考结论是一样的,坦白是B的上策。博弈的结果是两个博弈方同时选择坦白的策略,都被判5年。观察这个结果,是从每个人的利益出发,选出的最优策略。但是,无论从每个博弈方个体来看,还是从他们总体来看,这个结果都不是最好的,可以说是最差的。这个结局是必然的稳定解,称为“囚徒困境”。这个博弈揭示了个体理性与集体理性的矛盾。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突中,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。

囚徒困境是博弈论中经典、著名的博弈,可以扩展到许多经济问题,以及各种社会问题,可以揭示市场经济的根本缺陷。

一座城市,她的容量是有限度的,当无限地要求她时,她会疲惫、会衰老、会愤怒。上海的交通拥挤,生活成本的提高,都是囚徒困境的表现。来上海工作十几年,笔者见证房价的飞涨和交通的拥堵。房子越建越多,仍然跟不上需求,房价像脱缰的野马;地铁贯穿城市,方便快捷,像广告做的那样,想去哪里转眼就到。可是不要说高峰期,就是一般时段,也很少有座位。笔者带过的十几届研究生,没有一个是上海籍生员,但几乎都留在上海工作,而且发展得都很好。

经济领域中,商业竞争,商家竞相降价;如果某一领域商机显露端倪,那么一窝蜂地跟进;中国儿童教育的火热,课外辅导学校、各种教育机构的火爆,不能让孩子输在起跑线上,于是周末家长不能休息,穿梭于不同的教学点,孩子不能休息,疲于奔命地学习不同的特长……这些都是囚徒困境的体现。

军备竞赛可以建模为“囚徒困境”。假设每个国家可以建立核弹军备库,或者采取核军备控制。同时,假设每个国家最好的结果是自己拥有核弹头而其他国家没有;其次,是没有一个国家拥有任何核弹;再次,是两个国家都拥有核弹(关键是相对力量,并且核弹的造价很昂贵);最差的结果是其他国家拥有核弹,而自己没有。通过“囚徒困境”来建模,其中行动“不造核弹”对应于图1-2中的“不坦白”,而行动“造核弹”对应于图1-2中的“坦白”,如图1-3所示:

图1-3　军备竞赛

(二)双寡头削价模型

市场竞争中典型的囚徒困境是双寡头削价模型。通过降价来争夺市场,达到可能的最高利润。这个博弈的结果是双方都选择降价,策略组合(低价,低价)是纳什均衡,如图1-4所示:

pagenumber_ebook=21,pagenumber_book=14

图1-4　双寡头降价竞争

“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。他在《国富论》中说:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”中,我们引出了“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他人。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。研究囚徒困境的意义,在于利用这种困境达到有利于社会的目的,明确政府在经济活动中的组织协调工作的必要性,避免囚徒困境。

二、零和模型

零和博弈的特点是博弈双方的得益和为零,具有对称性,有对赌的意义,我国台湾地区至今把博弈称为赛局。赌胜博弈一般来源于游戏,也是博弈的本质所在。这里介绍几个典型的零和博弈。

(一)齐威王和田忌赛马

战国时期,齐威王要大将田忌与他赛马。每个人有三匹马,按实力分为上、中、下。齐威王的上、中、下三匹马从实力上看都比田忌的要好。规则是每次三匹马出场,每场一对一进行比赛。获胜方得益是赢得1千斤铜,输方支付1千斤铜给获胜方。由于每次上、中、下马的出场顺序相同,田忌每次比赛都要输掉3千斤铜。故事到这,不过是田忌陪齐威王开心。田忌每次比赛都很郁闷,一直输是会影响情绪的。

谋士孙膑给田忌出了个主意,改变了田忌的窘境:齐威王出上马时,我们出下马;他出中马时,我们出上马;他出下马时,我们出中马。田忌输了第一场,赢了后两场,最后结果赢了1千斤铜。

齐威王很纳闷,自己同样的三匹马,同样的顺序,今天怎么输了1千斤铜?对手的策略影响你的结果,博弈中策略的依存关系在这里得到了充分的体现。

博弈方改变了出场顺序,结果就变幻莫测。三匹马的出场顺序可以有6种情况,齐威王和田忌各有6个策略,随机的选择策略并实施,就有36种可能的策略组合,设定每赢一场的得益为1,表示1千斤铜,输一场的得益为-1。博弈方为齐威王和田忌,每人有6种可选择的策略,36种策略组合下的相应得益,每个格子前面的数值为齐威王的得益,后面的为田忌的得益。用博弈矩阵表示,如图1-5所示。

pagenumber_ebook=22,pagenumber_book=15

图1-5　齐威王和田忌赛马

6个可选策略之间是没有优劣的,只有和对方的策略组合相互依存才体现出策略的好坏。取胜的关键在于不让对方猜到自己策略,尽可能猜出对方策略。这个博弈进行一次,结果可能是36种中的任何一种情况。如果进行多次,属于混合博弈研究的情况。

(二)匹配硬币

两个人通过猜硬币的正反面来赌输赢。一人掷硬币,另一人猜是硬币的正面朝上还是反面朝上。若猜对,掷硬币方输掉1千元,用-1表示,猜硬币方赢得1千元,用1表示;反之亦然。这个情形的策略型博弈矩阵如图1-6所示。

在这个博弈中,博弈方的利益正好相反(这样的博弈称为“严格竞争性的”):掷硬币方想采取与猜硬币方相反的行动,猜硬币方则想采取同样的行动。

pagenumber_ebook=23,pagenumber_book=16

图1-6　匹配硬币

在一定规模的市场中,老厂商与新厂商关于新产品外观的选择可以用这个博弈来解释。假定每家厂商可以在产品的两种不同外观中选择一种。老厂商希望新来者的产品看上去与自己的不同(避免它的顾客被吸引去买新来者的产品),而新来者则希望产品看上去相似。或者,这个博弈可以模拟两人之间的关系,其中一个人想与另一个人一样,而另一个人则希望不同。

三、猎鹿问题

回过头来看前面的猎鹿问题,建立策略型博弈的三要素是:

博弈方:猎人A和猎人B。

策略:每个猎人的策略集合{猎鹿,猎兔}。

得益:对应于每一个策略组合,每个猎人有一个相应的收益,对应的4种策略组合有4种可能的结果。假设两个猎人猎到鹿,收益用4表示,分给每人2;一只兔子的收益用1表示。博弈矩阵如图1-7(a)所示。

pagenumber_ebook=23,pagenumber_book=16