重复博弈的概念

时间：2022-08-23 百科知识版权反馈

【摘要】：重复博弈是以一次性的静态博弈,或者动态博弈为基本博弈并反复进行的过程。动态博弈的子博弈的概念和逆推归纳法也适用于重复博弈。这种长度有限、有预定的结束期限的博弈,称为有限重复博弈。重复博弈可以看作是特殊的动态博弈。触发策略包含着威胁、惩罚和报复,是重复博弈中关键的机制,存在着可信性问题。如果是无限次重复博弈,其中的一个路径上,某个博弈方的各阶段的得益分别为π1,π2,…

重复博弈是以一次性的静态博弈,或者动态博弈为基本博弈并反复进行的过程。重复博弈要重复进行,属于动态博弈,每一次重复博弈,就是一个阶段。动态博弈的子博弈的概念和逆推归纳法也适用于重复博弈。一般按照博弈的次数分为有限重复博弈和无限重复博弈。

一、重复博弈的定义

通常的重复博弈是在基本博弈的基础上,重复两三次,或者有限次。这种长度有限、有预定的结束期限的博弈,称为有限重复博弈。

定义7.1　给定一个博弈G,重复进行T次,并且在每次重复之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为G的一个“T次重复博弈”,记为G(T);而G则称为G(T)的原博弈。G(T)的每次重复称为G(T)的一个阶段。

一个基本博弈G一直重复博弈下去的博弈,记为G(¥),称为无限次重复博弈。

动态博弈的路径和各博弈方的一系列的策略组合相对应,路径是由各个阶段的博弈方的行动轮流连接形成;重复博弈的路径是由每个博弈方在每个重复阶段的策略组合串联形成,对应上一个阶段的每一种得益结果,下一个阶段的得益结果对应的是原博弈的策略组合总数目,呈几何级数增长。比如,原博弈有4种策略组合,博弈重复两次就有16条博弈路径,若博弈的策略组合数目,或者重复的次数较多,博弈路径数目就会多得惊人。在众多的博弈路径中寻找稳定的纳什均衡路径,是重复博弈要解决的问题。

二、重复博弈的策略

重复博弈可以看作是特殊的动态博弈。动态博弈中,博弈方的行动是有先后次序的,后博弈方可以根据前面博弈进行的情况,相应地选择确定对自己有利的下一步策略行动。比如,囚徒困境博弈,看前面阶段的博弈情况,分析判断对手的情况,选择自己下一阶段采取合作策略还是背叛策略。这种策略称为依存策略或者相机策略(contingent strategies)。在重复博弈中,博弈方初次博弈时,互相试探,先采取合作策略,发现对方不合作,采取不合作策略来报复,这种情况下的策略,称为触发策略(trigger strategies)。一个博弈方采用触发策略的含义是,只有对方一直采用合作策略,该博弈方也一直采用合作策略;当对方在某一个阶段采用背叛策略,激怒了该博弈方,则触发该博弈方后面的博弈中采用不合作策略,或许永远不合作,以此惩罚对方。冷酷策略(grim strategies)和礼尚往来策略(tit for tat strategies)都属于触发策略范畴。

触发策略包含着威胁、惩罚和报复,是重复博弈中关键的机制,存在着可信性问题。另外,惩罚和报复的强度有多大?这是重复博弈要讨论和分析的问题,也与心理学、行为学等相关。

冷酷策略是指双方一开始都选择合作,重复合作几个阶段,其中一方采取背叛策略,以后的博弈中永远选择背叛。冷酷的含义是,某个博弈方的一次背叛,触发了永远的不合作。这个惩罚很沉重,且没有挽回的余地。

礼尚往来策略也称为“以牙还牙”或者“针锋相对”,是指双方开始合作,在后面的阶段中,如果对方合作,你就合作;如果对方采取背叛策略,你在下一次采取背叛策略进行报复,或者连续报复K个阶段,也称作惩罚K次的礼尚往来策略。如果对方背叛一次,你也背叛一次;对方“回心转意”,采取合作策略,你也“宽容谅解”,采取合作策略。这种情形称为严格的礼尚往来策略,与对方前一次的策略严格一致,也是惩罚力度最小的。

博弈方在博弈中,根据博弈的具体情况、对手的性格、得益的情况,综合分析判断,选择对自己最有利的策略。

三、重复博弈的得益

重复博弈中每个阶段都有得益,总得益有两种计算方法:一种是每次博弈的得益相加,称为“总得益”;另一种是总得益被博弈的重复次数平均,称为各阶段的“平均得益”。不同阶段的重复博弈的平均得益有时间上的次序问题,需要考虑时间价值因素,由贴现系数来解决这个问题。贴现系数由利率计算公式求得:δ=1/(1+γ),其中γ是一个阶段的市场利率。

一个T次重复博弈的某个博弈方,在某一个均衡路径上各阶段的得益分别为π1,π2,…,πT,那么重复博弈的总得益的现值为:

pagenumber_ebook=73,pagenumber_book=66

如果重复次数较少,时间间隔不长,利率和通货膨胀情况变化不大的话,可以用算术和近似地代替重复次数有限博弈的总得益。

如果是无限次重复博弈,其中的一个路径上,某个博弈方的各阶段的得益分别为π1,π2,…,那么无限次重复博弈的总得益的现值为:

pagenumber_ebook=73,pagenumber_book=66

如果不考虑贴现的情况,平均得益的定义如下:

定义7.2　常数 pagenumber_ebook=73,pagenumber_book=66 是重复博弈各个阶段的得益,可以产生与得益序列π1,π2,…,相同的现值,称为π1,π2,…的“平均得益”。

pagenumber_ebook=73,pagenumber_book=66

这样,我们得到了计算无限次重复博弈的平均得益的公式:

pagenumber_ebook=73,pagenumber_book=66

四、重复次数不确定的情况

重复博弈中除了重复次数有限和无限的情况,还有可能是博弈方本人都不知道博弈关系要持续多久的情况,也就是重复次数不确定的情况。

这类博弈中,博弈方虽然不确定博弈会持续多久,但是他们对博弈是否可以再持续一个阶段或者再重复一次有一定的概率判断,这称为随机结束重复博弈。比如,市场上生产相同产品的两家企业,只要消费者需要,两企业间的重复博弈就要继续,如果随着科技进步,消费者不再需要这种产品,两企业的博弈可能就结束。

我们可以这样理解随机结束的重复博弈,假定在进行一次重复博弈时,每次通过抽签来决定是否结束博弈,若抽到停止重复的概率为p,那么重复的概率为1-p,若博弈方的阶段得益为πt,利率为γ,博弈在第一阶段博弈后重复博弈的概率是1-p,博弈在第二阶段的期望得益为π2(1-p)/(1+γ),第三阶段的期望得益为博弈方总的期望得益的现值为: