人工智能的推进剂

时间：2023-02-14 理论教育版权反馈

【摘要】：英国数学家阿兰·图灵被视为人工智能——包括计算机科学和算法系统化之父。对无线电解码工作可以解释，阿兰·图灵把语言视为人工智能的标志。当测试员无法区分两人之中哪个是真实的人时，机器被视为智能化的。图灵确定了智能化概念的两大特征：“人”和“语言”。人工智能应该模仿人类，作为一种普遍问题的解决者，拥有通用的知识，能够给出跨专业的回答。

“这里是纽约约克敦海茨的T.J.沃森（T.J.Watson）研究中心，欢迎收看《危险边缘》！”2011年2月14日，上百万美国人坐在电视机前观看他们喜爱的益智问答游戏节目，这一期及其后几期是该节目在数十年的播放历史上情况最奇特的。不仅是因为这档节目没有通过位于美国加利福尼亚州的索尼影视公司，而是从美国技术巨头国际商用机器公司（IBM）的研究实验室直接播送，更重要的原因是，1984年就开始主持《危险边缘》节目的阿历克斯·特雷比克（Alex Trebek）这回邀请了两名纪录保持者：肯·詹宁斯（Ken Jennings，一个华盛顿电脑专家，到那时为止，他连续获得了《危险边缘》节目的74场胜利，赢得了250万美元的奖金，他第75次登场时连胜势头才告终止，输给了一个女士）和布拉德·拉特（Brad Rutter，演员和节目主持人，打破了他竞争者的奖金纪录，赢得了总数多达350万美元的奖金，被视为《危险边缘》节目不可战胜的冠军）。但是，那天成为明星的是一个首次参与的新人，而实际上它并不是《危险边缘》节目的新手。它的名字叫沃森（Watson），4岁，重数百公斤——由10个支架，90台平行计算机，近3000个处理核和一个高速网络同时安装在一台平衡仪上。它的知识范围至少包括全部维基百科和《大英百科全书》，此外还有各种不同的词典和报纸的内容。肯·詹宁斯事后说，它的智能给人感觉就像它自己的。³²尽管在沃森的认知中只涉及软件，其中有用于分布式计算的Hadoop和一个能够提出假说与评估的模型。在这里汇集的零部件，我们在前面介绍过，可以对抗较大的整体。

大数据，具体地说就是人工智能、智能机器，我们愈来愈多地被它们包围。智能汽车便属于其中，它们不允许您为了倒车、停车而松开安全带，尽管您系着安全带几乎没办法转身；要么假如我们允许，智能汽车可在没有驾驶员开车时在城市道路上行驶。同样还有“自我学习”的取暖设备控制器，它具有适应性能，适应房屋动能，房屋主人不必操作暖气的恒温器，因为房屋主人的智能手机与恒温器通过合作就可以完成这项工作。独自填装的冰箱、智能穿戴设备、聪明的罐头自动售货机——我们日趋被机器包围，被那些监护我们的无所不知者包围，通过它们真正地或者想象地优化我们的生活。

真正的技术革命既不是收集与永远存储庞大的数据，也不是愈来愈快的计算处理器或者新数据库架构。真正的革命是21世纪的人工智能，我们必须对此深入研究，因为它已经不可阻挡地朝我们走来。但是，到底什么是智能？为此，现代的大脑研究者和神经元科学家给出了他们的解答。在技术信息领域，这个定义在数十年之中发生着变化。英国数学家阿兰·图灵（Alan Turing，1912—1954）被视为人工智能——包括计算机科学和算法系统化之父。他之所以有这样的成就，一定程度是因为他是数学家；到现在，数学家还被视为难以理解的生物，毕竟他们很少能发表人们能够理解的演说。著名作家约翰·沃尔夫冈·冯·歌德（Johann Wolf-gang von Goethe，1749—1832）也对数学家挖苦，同时他还充当法语的批评者，他说：“数学家就是一类法国人：有人与他们交谈，他们就把这些译成他们的语言，然后内容立即成为另外的东西了。”³³无疑，图灵是同性恋者，在他生活的时代，这种行为是犯罪。当时对这个数学家的残酷“疗法”是注射雌性荷尔蒙，而不是他自身的古怪行为，致使他四十一岁时就自杀身亡。直至发展到这种地步，语言不仅对歌德，而且对图灵具有决定性意义。图灵与英国和波兰的秘密分析师在1942年底一块儿成功地解码了德国编码器Enigma的编码。英国人对德国潜水艇的无线电信编码的解码不仅被视为第二次世界大战的转折点，也被当作现代电子作战和信号智能（Signal Intell gence，简称SIGINT）侦察方法的诞生时刻。³⁴1943年，这场潜艇战德国最终战败，而德国海军对潜艇战的转折感到惊异。对无线电解码工作可以解释，阿兰·图灵把语言视为人工智能的标志。自然的唯物主义——理性主义的观点在这里也做出了贡献，正如笛卡儿（1596—1650）首次构想与描述的：自然是机械的，没有独立的智能摆脱得了它。时至今日，还有研究者跟踪这种唯物主义自然观。

在大数据领域，正好是那些地方，人类被数量化和得到优化，企业通过智能手机调查员工的睡眠、饮食或健身状况，以期对在职人员的工作能力量化，并传递给雇主。互联网巨头雅虎公司规定，15%最糟糕的、最没创造力的员工将被解雇，该规定得到了董事玛丽莎·迈尔（Marissa Meier）的支持，她曾经为了评估员工引入了一套饱受争议的内部记分系统。³⁵通过应用大数据，例如英国软件公司Soma Analytics对员工睡眠状态实施监控，使他们能够更有效地识别这15%的“低贡献者”（Minder-leister）。也许在某天出现糟糕的状况，是因为他们的雇主认为他们随时甚至在深夜机动地能够联系。能够联系还可以添加到不受干扰的监护病房。希望尚存，工会在私人全面监控的时代非常迅速地表现出敏感性，动员他们的成员。

人工智能的图灵试验可以追溯到阿兰·图灵：一个人类的测试员通过键盘与两个他看不见的对话伙伴交流，其中一个是人，另一个是机器。当测试员无法区分两人之中哪个是真实的人时，机器被视为智能化的。图灵确定了智能化概念的两大特征：“人”和“语言”。人工智能应该模仿人类，作为一种普遍问题的解决者，拥有通用的知识，能够给出跨专业的回答。这种对智能的早期理解今天看来已经过时，尽管它通过对不同学科的定义——生物学、人类学、心理学——好像变得模糊不清。

亲爱的读者，您拥有一只宠物吗？您会同意动物也拥有智能吗？一只家猫早晨跳到您床上，伸出爪子，它的鼻子就像蜂鸣器在工作。它学习了如何让您从沉睡中惊醒。如果它坚持，继续与您玩蜂鸣器游戏，您可能就会勉强起床，填满猫食盘，打开窗户。这只宠物没有那么愚蠢。一个喜欢宠物的主人，也许甚至不及他的宠物机灵。但是我们不要不加考虑地否定它，最好模仿它，对动物之爱获胜了，还有聪明行为的幽默和目标明确的动物策略。因为策略构成了智能。当一个生物具有判断关系的能力，估价自然的其他部分对行动的反应，今天它就被视为智能的。因此智能研究有别于笛卡儿当时确信的，即自然界的智能是固有的，甚至植物或者细胞也可以实现计划性的成就，拥有无声的运动行为的交际能力。³⁶对技术专家而言，以下人类学对智能的定义最为合适：智能是学习、处理信息和解决问题的能力。这一切一台计算机无疑都能完成，通常比人类完成得更好。当今人工智能研究已经摆脱了完全模仿人类。通过图灵试验的机器是Cleverbot。³⁷³⁸，您与Cleverbot开始聊天，并且自己确定您的人机交谈能够演绎得很风趣，使您愿意花上比一分钟更久的时间参与其中。

当然，图灵借助语言理解确定智能的最初想法不该草率地搁置一边。人类任何时候都期待计算机明白他们的语言，但是这没有那么简单，尤其是涉及公开问题的理解。处理一个查询问题，查询数据和信息汇集相对来说简单，但是给出《危险边缘》的答案，人们必须“利用其理解意义上的认知行为，解决一个棘手的问题”，这显然更为困难。IBM用沃森取得了巨大的成就——离开搜索引擎趋向答复机器，到那类显示一些意识的机器。但是智能如何进入机器呢？

“人工智能是一个充满方法的口袋。”算法学家轻松地解释道，“我们从统计学家那儿偷窃，利用随机学家，从最上面包装些东西——在这儿再来一点优化，到那边做些逻辑上的推论。”我们观察过模型、算法和大数据量，它们都是创造人工智能的必要前提。假如几乎没有可能区分模型与算法，就会在此面对下一步智能的挑战：因为模型和算法都有可能是人工智能，数据科学家为他们的模型定期利用统计学，而且人工智能的许多方法是统计学性质或者具有统计学的类似物。人们可以宣称走得太远，人工智能的研究者“拖走了”统计学，占为己有，因此两个学科有许多共同之处。一个统计学家几乎不愿意承认这点。同时一个人工智能的开发者感觉优越，因为统计学对他来说除了“数豌豆”外什么都不是。但是有必要的地方，他可以运用随机方法把统计学送入“真正”的数学之中，在一个模型中建构数学关系，借助统计学的手段把它们参数化。就这样，两个学科的合作者相处不好，它们之间早就爆发了信仰之战。但是人工智能的计算核心吸收了各种各样的方法。与象征性的人工智能相符的模型，试图描摹真实性，就像它本身那样。正如人们在寻找错误和诊断时应用传统的专家系统是一个不错的例子。它们给问题提供答案，而并没有给答案明确编程。确切点是他们从规则中推导出来的：“美国海军拥有战舰，提康德罗加级军舰是美国海军一艘巡洋舰。”推导可以是：“如果（IF）美国‘文森斯’号是巡洋舰，而且（AND）巡洋舰是（IS）提康德罗加级，那么（THEN）美国‘文森斯’号就是美国海军军舰。”

当沃森从其知识基础中推导答案，它也属于这类人工智能的类型。在参加完《危险边缘》节目之后，它作为测试参加者的前进便停止了。从此以后它被反复地使用，例如用于医学诊断系统，为疾病找到最佳的诊断方法，或者充当人造的投资经理，对每日质性的、织物状的数据流适时地解释，做出更好的投资决定。

像这种亚符号性（subsymbolisch）的人工智能，神经元网络便属于此类，在有机计算（organic computing）概念下出名，以另一种方式行动。作为对人脑认知的示范，人们绝对不可断言它已经卸载了程序。它的智能更确切地说是随着个人的发展而形成的，这种过程，我们称为学习，通过该过程，我们的大脑自己编程。对于学习来说利用了大脑特殊的结构，我称之为神经元的细胞及其触点、触突。人工智能的神经元网络发挥着类似的作用。它们不是像数据库那样存储数据，而是对数据进行编码作为其神经元确定的激活状态，当其激活状态越过一个确定的界限值时，它就开始“点火”。在大脑里，这些通过化学过程发生，而在大数据科学家的神经元网络中是通过数值，专业术语是加载（Gewichtung）。真实世界的效果将在神经元网络中作为它神经的确定活性来体现，如同符号性的人工智能，哪些网络的节点何时应当被激活的规则尚不存在，放弃学习神经元网络而是通过积极的培训实现触点的激活。它们最有意义投入使用的地方，只有少许关于变量的知识，例如对于股票价格走势的预测，对图像处理或者语言识别的时间顺序的分析。对一部经典作品的阅读，是将文本递交给神经元网络，用它来进行。因此与小孩子完全没有可比性。经过神经元网络积极的“阅读训练”将会给受训的网络展示一种全新的陌生文本。而且实际上这个网络能够阅读陌生的文本，因为它把已知熟悉的文本中例子与新文本做了比较。网络得到了概括化，专业人员称之为“概括能力”。

神经元网络如今以许多可能的形式存在，其中回归的神经网络，最接近人类的大脑。在有人输入数据的传统神经元网络到达一种确定的静止激活状态时，就可以与快速摄影比较，回归的神经网络可以“回忆”。它们产生的信息输出，不是基于来自现实世界新数据的输入，而是基于它们过去了解与看见的东西。回归神经网络让它们自己的信息输出返回进入数据输入，可与蝴蝶结相比较。

最具异国风采的是一种具有“长时的短期记忆”（Long Short-Term Memory，简称LSTM）的网络，这种唯一的回归神经网络，的确能够可靠地发挥作用。它的发明者是德国科学家泽普·霍赫赖特（Sepp Hochreiter，1967—）和尤尔根·施密特胡贝（Jürgen Schmid huber，1963—），两人在机器学习研究上处于领先地位。的确，德国研究者在人工智能的开发上成绩卓著。第三个同盟者，格哈德·魏斯（GerhardWeiβ）是欧洲分布式人工智能或者多代理的知名人物，我们对此将做更详细的观察。事实上，三人之中没有一人在德国研究和教学。国外提供了研究与创新的肥沃土壤，通常是为了接受教育？三名科学家在统计意义上并不重要，然而不由得产生如下问题：他们是发展趋势的指示器吗？如果出色的德国大脑离开德国，为了在国外教书，这个问题肯定是得到许可的。

学习（Lernen）这个概念正好落下。如果使用一个优化的方法找到神经元网络触点的活性，对真实世界的作用编码，就会有人谈到机器学习（Machine Learning），学习的机器。学习也就意味着始终的优化。而且优化意味着寻找，在神经元网络下寻找世界确定状态的最合适的神经元活性。恰恰是在这一点上显示了神经元网络的一个弱点，虽然有经验的数据科学家能够克服，但是一个对数据科学陌生的神经元网络用户却不能立即完成，正如他们常常在金融领域遇到的那样：过度专门化。一个数据科学家，当他给他的学习机器输入数据时发现，首先要对其阐释过去，但是他最多对此抱有历史的兴趣。也就是神经元网络能够对一种效果最佳的可能触点活性进行编码——应该强调，一种历史上出现过的效果，因为可靠的数据只为过去而存在——但是当这种效果在现实世界中仅仅偏离了一点点历史，神经元网络连带其结果和假设评价就可能距离现实非常遥远。这点与概括能力岂不是相悖吗？在过度特别化和普遍化中直接寻找平衡是与神经元网络打交道的真正艺术。其内部的力学是内在非线性的，在其中充满着混乱。在它们的公式中，数字的边际偏差可能导致它们在信息输出时产生巨大的差异。正因为如此，有许多门外汉打手势表示拒绝，一个神经元网络也许不会发挥作用。“懂得。”数据科学家反诘道，使了个眼色。

此外，沃森参加《危险边缘》节目获胜了。不过它也有一次失误。问题的范畴叫作美国的城市，题目是：“它最大的机场是用第二次世界大战的英雄命名的，第二大机场是用第二次世界大战的战役命名的。”这样看起来，加拿大的多伦多成了美国的一个城市。得承认，沃森吃不准。在沃森赢得36681美元奖金的当下——詹宁斯和拉特每次赢得2400美元和5400美元——沃森应该为它的回答赌一把。詹宁斯和拉特孤注一掷，给出了答案：“芝加哥。”沃森呢？它为多伦多这个答案赌947美元，并用五个粗粗的问号等待答案。若认为句法策略就是一切，那么你就可能犯错，其创造者也是臆造出来的。《危险边缘》知识竞赛不仅以机器的胜利结束，而且在观众认可的笑声中达到了最大的娱乐。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈