首页 百科知识 双人对弈模型

双人对弈模型

时间:2022-10-01 百科知识 版权反馈
【摘要】:而Bradley-Terry模型则多被用在成对比较的数据上来增进性能。Bradley-Terry模型是根据多个实体间两两对战的结果来计算出每个实体的强度。当然,同样是上例,如果一方以一定概率战胜另一方,则也可以用Bradley-Terry系列的模型处理。但是,需要注意的是,该模型的一个重要假设前提就是,需要是对一个维度上的特性的比较,所以在使用Bradley-Terry系列模型的时候,要首先判断下是否符合这个假设,如果不符合的话,就算可以勉强建模,估计也很难取得理想的效果。

13.2 双人对弈模型

成对比较模型早在一个半世纪之前就已经被提出,该模型可能是对具有竞争关系的物体间进行比较的一个最直接的方法。该模型中,需要被比较的物体首先被成对划分,然后在每一对中选择最符合评价标准的那一个。被比较物可以是任何物体,只要通过不管何种比较可以得到一个优胜者即可,除了实际的物体之外,也可以包含服务、环境、特征、属性等。

该模型通常被用来在两个实体间进行比较,以得出哪个更优。教育和心理学家L.L.Thurstone于1927年最早在成对比较中采用科学的方法来进行评测,提出了比较判断法则(law of comparative judgment),他将该方法和由Ernst Heinrich Weber和Gustav Fechner提出的心理学理论联系起来,他证明了该方法可以用于在具有间隔的性能或重要性这个维度上对物体进行排序;Bradley和Terry于1952年在Thurstone的模型的基础上提出了关于成对比较的概率模型(Bradley-Terry模型)。在现代心理学理论中,Thurston的比较判断法则更加适合作为一个测量模型。而Bradley-Terry模型则多被用在成对比较的数据上来增进性能。

Bradley-Terry模型是根据多个实体间两两对战的结果来计算出每个实体的强度。在Bradley-Terry模型中,对于m个选手的情况

img157

其中,γi是衡量第i个选手的水平的一个正数,也就是这个模型中需要求得的部分,通过γi便可以得到物体i的Elo值,为ri=400log10(γi)。如果对于球队来说,γi就是这个球队的整体技能。

通过不同的方式对这个模型进行求解,就产生了很多评分系统,这些评分系统在不同领域有着不同的应用。

围棋中,对于一个局面,我们落子在了A位置,而没有落在其他位置,我们就可以认为这个局面下,A点较其他点要好一些,A点战胜了其他的点,也就是是根据A点所符合的模式或特征战胜了其他可下点所符合的模式或特征。

除了可以对每个物体单独进行比较之外,通过引入团队强度的计算方式,便可以很方便地对团队间的比较进行建模,其中每个团队由多个独立物体组成。一共有6个物体,分别标记为1~6,我们将其分成3个团队形成竞争关系,其中团队组成如表13.1所示,其中每个成员可以属于多个团队。

表13.1 组对弈例子

img158

对于团队的情况,团队的整体水平为团队中每个成员的水平的乘积,如团队A的整体水平γA=γ1γ2,但是这并不是一个很强的假设,所以对一些复杂情况无法很好的建模处理。上例中,团队A胜利的概率为

img159

Bradley-Terry模型及其他基于Bradley-Terry的改进模型所处理的都是对同一维度特性的比较,对于物体间的比较涉及多个维度特性的情况则不能有效处理。比如多次比赛中A始终战胜B,B始终战胜C,C始终战胜A,对于这样的情况,Bradley-Terry模型就无法处理了。当然,同样是上例,如果一方以一定概率战胜另一方,则也可以用Bradley-Terry系列的模型处理。但是,需要注意的是,该模型的一个重要假设前提就是,需要是对一个维度上的特性的比较,所以在使用Bradley-Terry系列模型的时候,要首先判断下是否符合这个假设,如果不符合的话,就算可以勉强建模,估计也很难取得理想的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈