首页 理论教育 效用范围和效用评估

效用范围和效用评估

时间:2022-02-11 理论教育 版权反馈
【摘要】:给定一个智能体的偏好行为,效用公理并没有为该智能体指定一个唯一的效用函数。换句话说,看来没有一个效用函数能与这些选择保持一致。对于大差额的彩票,合适的效用函数表现出不可接受的高风险费用然而,大部分的被调查人能够协调他们的不一致,而且感到学会了关于他们想要什么样的行为表现的重要一课。归一化效用使用范围u 丄 = 0和u 丅 = 1。

给定一个智能体的偏好行为,效用公理并没有为该智能体指定一个唯一的效用函数。例如,我们可以将效用函数U(S)转换成

U ' (S) = k1+k2U(S)

其中k1是个常数,k2是任意正值常数。显然,这个线性变换保持智能体的行为不变。

在有状态却没有彩票的确定性上下文中,行为不被任何单调的变换所改变。例如,我们可以取所有效用的立方根而不会影响行动的偏好次序。我们说在确定性环境中的智能体具有一个价值函数或者序数效用函数。这个函数实际上只提供状态的级别而不是有意义的数值。在第六章的博弈游戏中,我们看到过这个区别:在确定性游戏比如国际象棋中,评价函数是价值函数,而在非确定性游戏比如西洋双陆棋中,评价函数是真正的效用函数。

人的判断和易错性

决策理论是个标准化的理论:它描述了一个理性智能体应该如何行动。如果也存在一个关于实际人类决策的描述性的理论,那么经济学理论的应用可以得到大幅度的加强。然而,实验证据表明人们系统化地违反效用理论的公理。基于经济学家 Allais(1953)的例子,心理学家 Tversky 和Kahneman给出了一个违反这些公理的例子。让参与这个实验的被调查人从彩票A和B之间选择一个,然后再从C和D之间选择一个:

A:80%的几率得到$4000    C:20%的几率得到$4000

B:100%的几率得到$3000    D:25%的几率得到$3000

大部分的被调查人选择B而不是A,选择C而不是D。但是如果我们赋值U($0) = 0,那么这些选择中的第一个暗示着0.8U($4000)<U($3000),而第二个选择正好暗示着相反情况。换句话说,看来没有一个效用函数能与这些选择保持一致。一个可能的结论是,根据我们的效用公理的标准,人类就是不理性的。另一种观点是这种分析没有考虑后悔——这是人们知道自己将会经历的感觉,如果他们为了有80%的机会获得更高的奖赏而放弃了确实的奖赏(B),之后却失败了。换句话说,如果选择A,就有20%的机会得不到钱而感觉自己是个彻底的白痴。

Kahneman和Tversky继续发展了一个描述性的理论,解释人们如何对于高概率事件采取风险规避,但是愿意冒更大的风险去得到可能性不大的收益。这个发现与AI之间的联系在于我们的智能体所能做出的选择只能和作为它们选择基础的偏好一样好。如果我们的人类信息提供者都坚持矛盾的偏好判断,那么我们的智能体也没有办法与他们保持一致。

幸运的是,根据进一步的考虑,人类做出的偏好判断通常是可以更改的。在哈佛商学院评估金钱的效用的早期工作中,Keeney和Raiffa(1976,第210页)发现了下述事实:

大量的经验性调查表明在评估方案中存在一个严重的缺陷。被调查人在小数目上倾向于过度的风险规避,因此……对于大差额的彩票,合适的效用函数表现出不可接受的高风险费用⋯⋯然而,大部分的被调查人能够协调他们的不一致,而且感到学会了关于他们想要什么样的行为表现的重要一课。其结果是,一些被调查人取消了他们的汽车碰撞保险,并去掉了他们的人寿保险中的更多条款。

直至今日,人类的(不)理性仍然是需要透彻调查研究的一个课题。

评估效用的一个过程是建立一个数值范围,该范围在U(S) = u 丅 处有“最好可能奖赏”,在U(S) =u 丄 处有“最坏可能灾难”。归一化效用使用范围u 丄 = 0和u 丅 = 1。中间结果的效用是通过要求智能体指明在给定结果状态S和标准彩票[p, u 丅; (1−p), u 丄]之间的偏好来进行评估的。调整概率p直至智能体在S和标准彩票之间无偏向。假设使用归一化效用,则S的效用由p给出。

另外,在医学、交通和环境决策问题中,人们的生命面临危险。在这些情况下,u 丄 是赋予“立即死亡(或者可能是很多死亡)”的值。虽然对于给人类的生命赋予一个值,没有人会感到舒服,但事实上,这种折中时刻都在进行。取决于旅程和飞行距离,不定期地对飞机进行彻底检查,而不是在每次旅程之后都要如此检查。汽车车身用相对薄的金属板材制造以减少造价,而不管事故存活率的降低。尽管众所周知含铅燃料对健康有害,它依然被广泛使用着。荒谬的是,拒绝“给生命赋予一个货币价值”意味着生命常常被低估。Ross Shachter受一个政府机构委托进行实验,对从学校清除石棉的问题进行研究。研究为每个学龄儿童的生命假设了一个特定的金钱数值,并论证在该假设下理性的选择是清除石棉。该政府机构道义上愤怒地拒绝了这个出格的报告。然后它决定反对清除石棉。

为了发现人们给他们自己生命设置的数值,进行过一些尝试。医学和安全分析中两个常用的“流通量”是微亡率(百万分之一的死亡风险)和 QALY 即“质量调整寿命年”(等价于身体健康不衰弱的一年)。许多对大范围个体的研究表明微亡率价值约$20(按照1980的美元价格)。我们已经看到效用函数不必是线性的,所以这并不意味着一个决策者会为了$20 000 000而自杀。此外,任何效用曲线的局部线性的性质意味着微亡率和QALY值对小的增量风险和奖赏是最合适的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈