大自然远比人类更智慧

时间：2022-02-09 理论教育版权反馈

【摘要】：多巴胺神经元能够评估整个皮质当前的状态，并通知大脑在当前状态下最好的行动路径。可卡因和安非他命之所以会让人成瘾，是因为这些药物会使多巴胺活性增加，并劫持大脑内部奖励系统。归功于多巴胺控制行为的力量，我们才能够延迟享乐直至到遥远的未来，在某种情形下，还能进入到想象的来世。我们无法依赖心智，大自然远比我们人类更有智慧。

特伦斯·谢诺沃斯基（Terrence J.Sejnowski）

萨尔克生物研究所计算神经科学家，弗朗西斯·克里克讲席教授，合著有《计算型大脑》（The Computational Brain）。

在我们的一生当中，我们慎重作出的每一个重要决策，都在我们的心中留下了清晰的印象，比如从事何种职业、居于何处、与何人相伴一生。但与此信条相反的是，生物学方面的证据表明决策过程发在一个古老的大脑系统之中，该系统被称为基底神经节，那是意识无法进入的大脑回路。尽管如此，心智却尽心尽力地为决策编造着合理的阐释。

引领该结论的科学线索始于对蜜蜂的观察。工蜂在春天的田野里采集花蜜，通过花的颜色、香气和形状来识别花蜜。蜂脑中的学习回路集中在下颚神经髓腹侧非成对中央细胞（VUMmx1），即接收感官输入的单一神经元，在这之后，再接收花蜜的信息，然后当蜜蜂下一次见到这种花时，它就学会了预测花蜜的价值。这个过程中的延迟相当重要，因为其关键是进行预判，而不是单纯的关联。它同时也是时间差分学习（TD）的核心概念，这包括去学习一系列能达成目标的决定，尤其是在不确定的环境中是极为有效的，比如说我们生活的这个地球。

在我们的中脑深处有一个小组神经元，对决策起着非常重要的作用，这些神经元在最早的脊椎动物祖先中被发现，之后又扩展到整个皮层和基底神经节。这些神经元释放的神经传导物质叫作多巴胺，它对我们的行为有着巨大的影响。多巴胺被誉为“奖励分子”，但更重要的是，这些神经元有着预测奖励的能力，比如如果从事这样的工作，我会有多快乐？多巴胺神经元是动机与执行时间差分学习的核心，就如同VUMmx1一样。

时间差分学习解决了找寻达成目标最快捷路径的问题。这是一种即时的演算法，因为在达成目标的过程中，这种演算法可以通过探索发现中间决策的价值。要做到这点，必须创建一个内部的评估函数，用于预测行动的后果。多巴胺神经元能够评估整个皮质当前的状态，并通知大脑在当前状态下最好的行动路径。在许多情形下，最好的行动路径当然是一种猜测，但由于猜测可以不断得以改进，所以时间差分学习会随着时间的流逝而创造出玄妙深奥的价值函数。多巴胺可能是你偶然经历过的“直觉”的源泉。

在你反复掂量各种选项时，具有前瞻性的大脑回路正在对每个情况进行着评估，多巴胺的瞬间浓度会记住每个决策的预测值。多巴胺的浓度与你的动机强弱相当，也就是高浓度的多巴胺预示着高期望值的奖励，而你也会有更强的动机去追求目标。这在运动系统中表现得更为直接：多巴胺的浓度较高时，会让动作更快。可卡因和安非他命之所以会让人成瘾，是因为这些药物会使多巴胺活性增加，并劫持大脑内部奖励系统。降低多巴胺含量会引发快感缺失，使得无力体验快感；而失去多巴胺神经元则会导致帕金森氏病，让人失去行动和思考的能力。

时间差分学习威力强大，因为它结合了许多不同维度的价值信息，实际上，在达成遥远目标的过程中，时间差分学习是通过把不相关的事物放在一起做比较而达到效果的，譬如比较苹果和橙子。这很重要，原因就在于要在诸多变数和未知中作出理性决策绝非易事。如果你拥有一个内部系统，该系统能够作出快速的、良好的猜测，这就是你所拥有的一项巨大的优势，在需要快速作出决策之际，不同的决定很有可能就会产生生与死的差别。时间差分学习依赖你人生经验的总和。它在个体都记不住经验细节的时候，就会提取这些经验中的本质要素来帮助我们记忆。

时间差分学习同时对心理学家训练老鼠和鸽子执行简单任务的实验作出了阐释。增强学习算法，在传统上被认为不太能解释清楚这样的复杂行为，因为来自环境的反馈最小。尽管如此，强化学习几乎适用于所有物种，并会促使一些形式最为复杂的感觉得以协调，比如说钢琴演奏和发表演讲。强化学习已经经过了亿万年的进化萃取，无数物种都从中获益匪浅，尤其是我们人类更是如此。

那么时间差分学习能够解决多复杂的问题呢？双陆棋是一种电脑程序，其内容是通过和自己比赛，学会如何玩双陆棋。这种方法的困难在于，只有在比赛结束后才能获得奖励，所以玩家不太清楚到底是哪几步棋下得不错，才赢得了最后的胜利。在一开始玩游戏时，玩家只知道游戏规则，但不了解游戏的策略。在和自己下过多次后，玩家可以应用时间差分学习来创造价值函数，对游戏中棋子的布局进行评估，这个游戏让玩家从初学者攀升到专家级别，其在整个过程中都采用类似于人类使用的巧妙策略。经过百万次后，玩家就可以达到总冠军的级别，并且它还会出现让人类专家都惊讶的新布局。类似的游戏途径在围棋中也取得了不俗的表现，并正在往职业级别迈进。

在可能的结果会出现组合爆炸的情形下，精挑细选的裁剪极有裨益。注意力和工作记忆会让我们专注在问题的重点上。陈述性记忆系统也对增强学习施加更大压力，以此来寻找独特的对象和事件。当大脑在灵长类动物中得以进化时，增加的记忆容量大大增强了他们作出复杂决策的能力，从而发展出了一系列的行为来达成目标。我们是唯一创建教育系统、并让自己接受多年教育和考试的物种。归功于多巴胺控制行为的力量，我们才能够延迟享乐直至到遥远的未来，在某种情形下，还能进入到想象的来世。

在20世纪60年代的认知革命之初，即使是最聪明的心智也无法想象到，增强学习能够作为智慧行为的基石。我们无法依赖心智，大自然远比我们人类更有智慧。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈