不完全信息动态博弈的权宜之计

时间：2023-05-27 百科知识版权反馈

【摘要】：不完全信息静态博弈，是指至少某一位局中人不完全了解另一位局中人的特征，即不知道某一参与人的真实类型，但是知道每一种类型出现的概率。因此，可以说公司法务人员所做的法律风险评估或法律意见只不过是不完全、非对称信息动态博弈的权宜之计，并非万全之策。

不完全信息静态博弈，是指至少某一位局中人不完全了解另一位局中人的特征，即不知道某一参与人的真实类型，但是知道每一种类型出现的概率。法务人员所做的法律风险评估或形成的法律意见在很大程度依赖的是已有信息所含事项出现的概率多少而已，如果一切都是肯定的，就会有切实的措施可提前实现，也就不存在风险的潜在问题了。而实质上信息所隐含的数据本身往往存在概率性，或者说数据本身并不真实，不真实的数据被正确地引用，也就一定隐含着风险。

在动态博弈中，博弈双方的行动有先后次序，获得信息的多少，以及是否及时的问题；在不完全、非对称信息条件下，博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率，即知道“自然”参与人的不同类型与相应选择之间的关系，但是，参与人并不知道其他的参与人具体属于哪一种类型。由于行动有先后顺序，后行动者可以通过观察先行动者的行为，获得有关先行动者的信息，从而证实或修正自己对先行动者的行为。公司的法务人员，针对某一特定事项进行法律风险评估或提出法律意见时，实质上面对的是不完全、非对称信息，也就是说即使通过某种渠道，已获知相关风险识别的资料信息，但对手可能不特定，即使特定，该信息也可能属于不完全、非对称的信息，对方可能保留某些资料或为下步行动提出有利于己的信息，环境也可能发生较大变化。也就是说，法务人员进行法律风险评估所提的法律意见是行动的一步，还需要根据对方的反映或事件的变化来修正或证实自己的行动是否是最佳的行动，这样其预测或意见也只能具有某种概率性，而资料的收集、认识也会具有某种或然性。因此，可以说公司法务人员所做的法律风险评估或法律意见只不过是不完全、非对称信息动态博弈的权宜之计，并非万全之策。

法务人员在不完全、非对称信息动态博弈的一开始，应根据其他参与人的不同类型及其所属类型的概率分布或判断的或然性，建立自己的初步判断。当法律意见或所采取的措施付诸行动后，就可以根据他所观察到的其他参与人或对手的实际行动，来修正自己的初步判断，并根据这种不断变化的判断，选择自己的策略。我们知道，面对特定的法务工作，如果需要就某一特定工作进行法律风险评估，采取法律措施时，并不知道环境是如何变化的，也不知道风险点的引发因素是什么。这样法务人员，只能虚拟一个对手，通过模拟来假设虚拟的对手会是如何采取反擎行动的，所以法律意见或法律风险评估在一定程度上是多方案下的择优，也是多假设下的荐优。对于已暴露的信息，可能发生的事，只能根据法务人员的经验进行判断，对其或然性或概率进行假设，从而对法律风险进行评估，并提出行动（所应采取的措施），同时还要对采取措施后的行为进行纠偏假设，多假设几套处置突发事件的预案。当然，评估者的资历与阅历对风险的判断具有重大的影响作用，“久病成医”的哲理值得思考。

以下是几个关于不完全信息动态博弈的例子：

贝叶斯方法是概率统计中的一种分析方法。它是指根据所观察到现象的有关特征，并对有关特征概率分布的主观判断（即先验概率）进行修正的标准方法。中国著名成语故事“黔驴技穷”，就是贝叶斯方法思想的一个典型表达。

老虎没有见过比它高大很多的驴子，因而不知道自己的力量与扑食技巧比驴子强大还是弱小。老虎也就不知道一旦与驴子交手，胜算如何，但饥饿的老虎绝不甘心放弃眼前的美食。老虎所拟定的战略是：如果自己比驴子弱，那就只能逃离；如果自己比驴子强，那就想办法制服它，直到吃掉它。鉴于自己并不了解驴子的实力，老虎就采取不断试探的策略，通过试探驴子的反应，不断修改自己对驴子实力的评估。如果驴子表现温顺无能，老虎就认为驴子是美食的概率比较大，起初驴子没有反应，老虎认为驴子不像强敌，胆子越来越大。后来驴子大叫，老虎以为驴子要吃它，吓得逃走，但后来想想，又觉得不一定，于是继续试探，直到驴子踢老虎，老虎才觉得驴子“技穷也”，于是采取自己强时的最优行动——干掉他，吃掉他。而公司法务人员面对潜在纠纷时，所采取的法律函、索赔函在一定程度也是在先行试探对手的反应。开始口气一般都较为温和，随着双方的交锋，语气越来越重，直到有一方诉诸法律，直到法院判决，申请法院强制执行，双方达到水火不容的地步。任何一方战胜对手后才知交锋过程精于思考的重要性。

由于信息不完全，每个人都希望向对方传递对自己有利的信号。比如，在纠纷发生时，一方总是会先通过发律师函来向对方说明自己是守信的，并显示其通过协调解决纠纷的一面，而律师函中往往所列举的都是对方违约、失信的事实。在回函中，与对方的观点总是针锋相对的，举出发函方失信的事实与己方守信的明证。双方也越来越注意往来函件的语气与修饰，生怕被对手抓到什么破绽。律师函在口气上总表现得客气、婉转，因为那是开始指出问题所在函件，那是希望对方和解的信号，等等。问题是，接受律师函的一方不一定相信对方所传递的信号是真实的。

由于对方不一定相信你传递的信号，而甄别信号需要成本，所以，一定要传递可信（可观测）、并且甄别成本低的信号。

这种为传递信息支付的成本是由信息的不完全性导致的。那么，是不是说不完全信息就一定是件坏事呢？不一定。在有限次重复囚徒困境博弈中，不完全信息可以导致合作的后果，而在完全信息下是不可能的，理由是，当信息不完全时，当事人为了获得合作带来的长期利益，不愿过早地暴露自己的本性。说得更通俗一点，在一种长期的关系中，一个人干好事还是坏事常常不取决他在本性上是好人还是坏人，而很大程度上取决于其他人在多大程度上认为他是好人。假定其他人并不知道自己的真实面目，一个坏人也会在相当长的时间内干好事。从这个意义上讲，过早地揭穿坏人的“真面目”也许不是一件好事，因为坏人干好事本身并不一定是件坏事。当然，在博弈的最后阶段，坏人的真实面目总是要暴露的，这就是我们常说的“路遥知马力，日久见人心”。在许多情况下，参与人对对手的了解往往是不够精确的。这种情况下的博弈就是不完全信息博弈。

法务人员所收集的信息并不完全，对方也并不确定，这样就需要法务人员虚拟一个对手，从而站在反方来模拟对方会采取什么行动，自己将采取什么行动。由于与对方的信息不对称，这在拍卖商品或工程招投标中，参加拍卖的潜在买主愿意为拍卖品所支付的最高价格或参加工程招投标的投标者愿意为工程开出的最低价格只能是各个潜在买主或投标者心中的秘密，其他人是不清楚的，即使潜在买主或投标者告诉其他人他们愿支付的最高价格或最低价格，其他人也不会相信他们说的是真的。当你与一个陌生人打交道时，你并不知道他的特征，如喜欢什么、不喜欢什么。事实上，即使与你长期共事的人，也很难说你对他有完全的了解；当你想买一件古董或名画时，你并不知道卖主愿意脱手的最低价格是多少，或买主愿意出的最高价格是多少；当一个公司想进入某个市场时，它并不清楚已在市场上的公司的成本函数。如此等等，这样的例子枚不胜数。类似上述这些不满足完全信息假设的博弈称为不完全信息博弈。

当然，如果对博弈对手一无所知，那么，也就无从博弈。现实生活中，大多数情况下，虽然对于对手的一些特征不完全了解，但总不至于一无所知。例如，打牌时，虽然不知道对手具体拿什么牌，但根据自己的牌，还是可以对对手的牌有一个估计的，而且，随着牌局的展开，人们会不断改变这些估计。这些估计，可以用数学上的“概率分布”来表示。

艾克斯罗德（Robert Axelrod）在开始研究合作之前，设定了两个前提：

第一，每个人都是自私的；

第二，没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。

而在撰写法律意见前，需要对合作进行研究与评估：

第一，人为什么要合作；

第二，人什么时候是合作的，什么时候又是不合作的；

第三，如何使别人与你合作。

在法务工作中有很多合作的问题。比如，合同双方之间的税务问题，就涉及双方对合同形式的认同，不同的合同形式可能涉及不同的纳税水平，如果双方不合作，就不可能达到合理避税的目的。例如，在工程项目总承包合同中就涉及增值税、营业税问题，这就需要双方很好合作才能达到合理避免的目的，还有如专利技术转让许可合同，可能还涉及专利设备或化工填料，而合同的不同形式其纳税水平也是有很大差别的，这就要双方合作，同时还要通过一定手段试探当地税务部门的态度，否则即使双方再合作，如果不考虑相关税务部门的态度，也就是如果不与相关税务部门合作，也是不可能达到利益最大化的。法务人员在对合理避税进行评估时，如果合同双方各自追求自己利益的最大化，就可能导致群体利益的损害。

下面以合理避税与不合理避税作为甲乙双方的纳什均衡：

A和B各表示合同甲、乙一方，他们的选择是完全无差异的。选择C代表合理避税的合作，选择D代表不采取合理避税不合作。如果AB都选择C，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。合同双方合理避税法律风险评估的纳什均衡。

乙方合理避税不合理避税甲方合理避税（3，3）（4，0）不合理避税（0，4）（1，1）。

然而，无论是否采取合理避税，双方合作的赋税水平最终都应由甲方来承担，这样虽然不合理避税对于甲方来讲虽然可获得5分的利益，但由于乙方的税务水平最终也由甲方承担，这样合理避税从表面上看是3分，但加上乙的得分，可获得6分，而不合理避税对于甲方来讲，其收益是最小的。

显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得4分。如果两人都选D，总体得2分。

这样在合理纳税法律风险评估中，对于服务或成果接受方来讲，一般都会支持提供服务或成果方提出的合理避税要求，哪怕在合同中的风险偏大，也会被动接受。

法务人员利用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选 C，他选D得4分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。这个结果在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。

因此，在法律风险评估中，重点要考虑法律措施实施所需要的成本由哪一方来承担，利益由哪一方来获得。有时的风险评估看似最优，实质上并不恰当，看似不优，而实质上是合理的。

特别在商务合同执行的法律风险评估中，双赢是十分重要的。如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。这样，法务人员在法律风险评估或法律意见拟定时，一定要考虑对手或虚拟自然人的合作诚意。如果不合作，或者不充分合作，其方向是截然不同的。

如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。

艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。

艾克斯罗德正是以这样一个鼓舞人心的结论，突破了“囚犯困境”的研究困境。在研究中发现，合作的必要条件是：

第一，关系要持续，一次性的或有限次的博弈中，对策者是没有合作动机的；

第二，对对方的行为要做出回报，一个永远合作的对策者是不会有人跟他合作的。

那么，如何提高合作性呢？

第一，要建立持久的关系，这个不难理解，即使是爱情也需要建立婚姻契约以维持双方的合作。

第二，要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，就没法回报他了。

第三，要维持声誉，说要报复就一定要做到，人家才知道你是不好欺负的，才不敢不与你合作。

第四，能够分步完成的对局不要一次完成，以维持长久关系。比如，贸易、谈判都要分步进行，以促使对方采取合作态度。

第五，不要嫉妒别人的成功，特别是谈判中，对手立场的改变不完全是出于自保，或许是从合作更有利结束谈判而作出让步后的考虑。

第六，不要首先背叛，以免担上罪魁祸首的道德压力。

第七，不仅对背叛要回报，对合作也要做出回报。

第八，不要耍小聪明，占人家便宜。

艾克斯罗德在《合作的进化》一书结尾提出几个结论：

第一，友谊不是合作的必要条件，即使是敌人，只要满足了关系持续，互相回报的条件，也有可能合作。如第一次世界大战期间，德英两军在战壕战中遇上了三个月的雨季，双方在这三个月中达成了默契，互相不攻击对方的粮车给养，到大反攻时再你死我活地打。这个例子说明，友谊不是合作的前提。

第二，预见性也不是合作的前提，艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是，当有预见性的人类了解了合作的规律之后，合作进化的过程就会加快。这时，预见性是有用的，学习也是有用的。当游戏中考虑到随机干扰，即对策者由于误会而开始互相背叛的情形时，吴坚忠博士经研究发现，以修正的“一报还一报”，即以一定的概率不报复对方的背叛，和 “悔过的一报还一报”，即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强，“悔过的一报还一报”效果越好，“宽大的一报还一报”效果越差。艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境，达成合作，将这项研究带到了一个全新境界，他在数学上的证明无疑是十分雄辩和令人信服的，而且，他在计算机模拟中得出的一些结论是非常惊人的发现，比如，总分最高的人在每次博弈中都没有拿到最高分。艾氏所发现的“一报还一报”策略，从社会学的角度可以看作一种“互惠式利他”，这种行为的动机是个人私利，但它的结果是双方获利，并通过互惠式利他有可能覆盖了范围最广的社会生活，人们通过送礼及回报，形成了一种社会生活的秩序，这种秩序即使在多年隔绝、语言不通的人群之间也是最易理解的东西。比如，哥伦布登上美洲大陆时，与印第安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为，如无偿捐赠，也通过某些间接方式，如社会声誉的获得，得到了回报。研究这种行为，将对我们理解社会生活有很重要的意义。

“囚徒困境”扩展为多人博弈时，就体现了一个更广泛的问题——“社会悖论”，或“资源悖论”。人类共有的资源是有限的，当每个人都试图从有限的资源中多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞，都可以在社会悖论中得以解释，在这些问题中，关键是通过研究，制定游戏规则来控制每个人的行为。艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应，“投桃报李”“人不犯我，我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的，因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。对此，孔子在几千年前就说出了“以德报德，以直报怨”这样精彩的修正策略，所谓“直”，就是公正，以公正来回报对方的背叛，是一种修正了的“一报还一报”，修正的是报复的程度，本来会让你损失5分，现在只让你损失3分，从而以一种公正审判来结束代代相续的报复，形成文明。但是，艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。

首先，《合作的进化》一书暗含着一个重要的假定，即个体之间的博弈是完全无差异的。现实的博弈中，对策者之间绝对的平等是不可能达到的。一方面，对策者在实际的实力上有差异，双方互相背叛时，可能不是各得1分，而是强者得4分，弱者得0分，这样，弱者的报复就毫无意义。另一方面，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形，而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此，程序还可以在此基础上进一步改进。

其次，艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术，合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史，以便做出反应，这些都暗含着“预期”行为。在应付复杂的对策环境时，信任可能是对局双方达成合作的必不可少的环节。但是，预期与信任如何在计算机的程序中体现出来，仍是需要研究的。

最后，重复博弈在现实中是很难完全实现的。一次性博弈的大量存在，引发了很多不合作的行为，而且，对策的一方在遭到对方背叛之后，往往没有机会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间的核威慑。在这些情况下，社会要使交易能够进行，并且防止不合作行为，必须通过法制手段，以法律的惩罚代替个人之间的“一报还一报”，规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈