博弈论的应用

时间：2022-06-10 百科知识版权反馈

【摘要】：＊7.3.4　博弈论的应用博弈论直译就是游戏理论，是研究人们在一定规则下选择各种策略并加以实施的过程。我们把各个博弈方占优策略的交集称为纳什均衡。囚徒的困境模型假设如下：两个罪犯在火车上非法携带枪支被警方捕获。但是警方缺乏有力证据认定他们的抢劫枪支罪。囚徒的困境在生活中处处可见，下面用博弈论来分析卡特尔协议不稳定的原因。

＊7.3.4　博弈论的应用

博弈论（Game Theory）直译就是游戏理论，是研究人们在一定规则下选择各种策略并加以实施的过程。生活中的下棋、打牌、买彩票、赌博都是游戏。这些游戏的共同点就是各个参与者之间需要选择各种策略，而且策略之间具有相互依存性。这点跟寡头市场的根本特点完全一致，因此我们可以运用博弈论来研究寡头市场。

在双寡头市场部分，我们曾讨论过反应函数（图7－13），即对其他厂商产量的最佳对策，这在博弈论中被称为占优策略（Advantaged Strategy）。具体来说，无论对手采用什么策略，己方的某个策略给自己带来的收益始终高于采取其他策略的收益。那么“某个策略”的集合就是己方的占优策略。无论B厂商采取什么产量，A厂商都有对应的一个给他带来最高收益的产量决策，这个产量决策集合是关于B产量决策的函数，因此这个函数就是A厂商的占优策略。

我们把各个博弈方占优策略的交集称为纳什均衡。前面我们讨论的A厂商与B厂商的反应函数分别是二者的占优策略，均衡点E即二者占优策略的交集，代表了他们稳定的最优产量水平（如图7－13），这就是古诺模型中的纳什均衡。为了使读者更容易理解，这里给大家介绍一个经典博弈模型——囚徒的困境。

囚徒的困境模型假设如下：两个罪犯在火车上非法携带枪支被警方捕获。警方在检验枪支的时候惊奇地发现，此枪支原是某公务人员持有，一次在执行公务时此公务人员被强盗打伤，枪支被夺。但是警方缺乏有力证据认定他们的抢劫枪支罪。但是如果两人中只要一人坦白，罪名就可以成立。为了得到需要的口供，警察将这两名罪犯分别关押并分别予以审讯，并告知他们：如果他们都拒不认抢劫枪支罪，根据疑罪从无原则，抢劫枪支罪不成立，那么他们会以非法携带枪支罪被判入狱1年。如果他们中有一人坦白抢劫枪支罪，那么坦白者由于有立功表现，从轻处理，立即释放；而拒不认罪者依法从重处理，被判入狱8年。如果两人都坦白，那么分别被判处入狱5年。于是可以得到如表7－2所示的博弈矩阵。

表7－2　囚徒的困境

每个框内前一个数字是囚徒1的被判年数，后一个数字是囚徒2的被判年数，被判的年数即收益。“坦白”和“不坦白”是博弈方的策略，在古诺模型中策略是连续函数，这里是有限的两个选择。由于被单独审讯，因此他们将在不知道对手选择的情况下作出判断。

从表7－2中可以清楚地看到，如果囚徒1和囚徒2都选择坦白，将被分别判入狱5年。如果囚徒1和囚徒2都不坦白，将分别被判入狱1年。如果囚徒1坦白而囚徒2不坦白，那么前者被释放，后者被判入狱8年。如果囚徒1不坦白而囚徒2坦白，那么前者被判入狱8年，后者被释放。

现在我们直接考虑这个模型。假设A现在面对审讯。由于不知道B会采取哪种策略，因此A的选择一定是B在每种选择下自己的最佳反应。假设B选择坦白，那么A如果选择坦白将被判入狱5年；如果不坦白，将被判入狱8年。很容易比较，A选择坦白。假设B选择不坦白，那么A如果选择坦白将会被释放，如果选择不坦白将被判入狱1年。此时坦白也是A的最优选择。综上，无论B选择坦白还是不坦白，坦白是A唯一的占优策略。根据对称性，不难得出，坦白也是B唯一的占优策略。那么最终的纳什均衡是“坦白，坦白”，即二者都选择坦白，分别被判入狱5年。

我们从囚徒的立场来考虑这个结果。如果二者都选择不坦白，每人只需要被判入狱1年，加起来也就2年。如果一人坦白，一人不坦白，加起来也就8年。从总体角度来看，这两个结果都比双方坦白一共被判10年要强。从各自角度来看，双方都不坦白的结果要严格优于双方坦白的结果。那么为什么他们最终选择了一个差的绩效呢？

由于两个囚徒之间不能沟通，并且每个人都在追求个人的最大利益而不顾全局，双方又都不相信对方有合作精神，因此只能实现对他们都不理想的结果。由于这个结果具有必然性，很难摆脱，因此这个博弈被称为“囚徒的困境”。当然，这个结局对社会来说是个理想的结果，罪犯受到了应有的惩罚。但是从博弈者的角度来看，不仅总体最大利益被牺牲了，个人最大利益也没有追逐到。该博弈揭示了团体理性与个体理性之间的矛盾，同时也揭示了个体理性本身的内在矛盾。

囚徒的困境在生活中处处可见，下面用博弈论来分析卡特尔协议不稳定的原因。前文两个寡头厂商有激励缔结卡特尔协议，均分别生产（a－c）/4b，均分别获得（a－c）²/8b的利润。如果B厂商背叛协议，那么他将按剩余需求曲线P＝（3/4a＋1/4c）－bq₂根据利润最大化原则生产，q₂＝3（a－c）/8b，则背叛的厂商将获得利润9（a－c）²/64b。而由于背叛厂商价格的优势，消费者会先购买背叛厂商的产品。而忠于协议的B厂商仍然会按协议价格（a＋c）/2出售产品，这时候他面对的实际剩余需求曲线P＝（5/8a＋3/8c）－bq₁，只能销售出（a－c）/8b的产品。那么忠于协议的A厂商实际获得（a－c）²/16b的利润。^[2]如果两个厂商都选择背叛协议，那么他们均按各自利润最大化生产，古诺产量为（a－c）/3b，利润均为（a－c）²/9b。

如表7－3，A厂商和B厂商签订了卡特尔协议。他们有两种选择：一是背叛协议；二是按协议价格生产。如果双方都选择背叛策略，那么卡特尔协议如一纸空文，最终他们均分别获得古诺模型下的均衡利润（a－c）²/9b。如果一方选择背叛，另一方选择遵守协议，背叛方将获得9（a－c）²/64b利润，而遵守协议方获得（a－c）²/16b利润。如果双方都遵守协议，那么他们均分别获得（a－c）²/8b的利润。

表7－3　　卡特尔协议的不稳定

我们可以用分析囚徒困境的方法继续分析卡特尔协议下厂商的行为。A厂商目前面对两种选择，但是由于独立生产，他并不知道B厂商的选择。那么假设B厂商背叛协议，如果自己遵守协议，那么只有（a－c）²/16b的利润；而如果自己也背叛协议，至少还有古诺均衡下的利润（a－c）²/9b，高于只有自己一方遵守协议的利润。假设B厂商选择遵守协议，如果A厂商自己也遵守协议，那么将有协议利润（a－c）²/8b，高于古诺产量下的利润，这也是他们签署卡特尔协议的原因；但是如果自己背叛协议，那么将可以获得9（a－c）²/64b的利润，高于协议下获得的利润。因此无论B厂商怎么选择，对于A厂商而言，“背叛”是他的唯一占优策略。B厂商的分析模式相同，背叛也是他的占优策略。那么最终两个占优策略的集合只有双方均选择背叛，这就是本博弈的纳什均衡。因此卡特尔协议是不稳定的，双方都有背叛协议的激励。

我们来看看各种策略组合下的利润状况。二者均选择背叛，那么只有古诺均衡下的利润，显然低于卡特尔协议下双方各获得的利润，终点又回到了起点。垄断结果虽然是共同理性的选择，但每个寡头从自身的利益出发，必将陷入囚徒的困境，这是个体理性的必然结局。

从以上内容中我们知道了卡特尔协议的参与者为什么有激励背叛已经签订的协议。那么有什么方法可以走出囚徒的困境呢？

直观来看，只要对背叛的厂商予以惩罚，那么就有可能会抑制背叛。但惩罚要满足什么条件才能使惩罚机制体现效用呢？下面研究一下这个问题。假设对背叛厂商采用每期惩罚为T的trigger惩罚策略，即一旦有厂商背叛协议，那么所有合作厂商都将改变产量，使得背叛厂商最多只能获得比原来协议利润低T的利润。如上面的案例中，B厂商如果某次背叛协议，那么在以后每期生产中，他都只能获得（a－c）²/8b－T的利润。我们再假设r为贴现率，即以后每期得到的利润在厂商心目中折抵为当期价值的折扣率，这是个主观数值，介于0和1之间。看重远期价值的厂商这个贴现率较高，看重当期价值的厂商贴现率较低。

如果厂商在当期选择背叛，那么他将多获得9（a－c）²/64b－（a－c）²/8b＝（a－c）²/64b的利润，而为此他付出的代价是以后每期都减少T的利润。由于即期和远期的利润对厂商并非相同的概念，因此远期数值可以用贴现率折换成即期数值进行比较。厂商实际付出的代价是rT/（1－r）^[3]。那么只要满足（a－c）²/64b＜rT/（1－r），即r＞｛（a－c）²/64b｝/｛（ac）²/64b＋T｝，厂商就会放弃背叛，选择合作。很容易观察，T值越大，r存在的可能性区域越大，厂商也就越可能放弃背叛。换言之，如果厂商越看重即期价值，采用的惩罚T就越需要加大才可以起到约束厂商的作用。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈