首页 理论教育 人工智能的工作原理及其优缺点

人工智能的工作原理及其优缺点

时间:2022-02-28 理论教育 版权反馈
【摘要】:持续两百多年的工业革命创造的各种机器大幅超越了人类的体能,正在爆发的人工智能革命在快速追上并超越人类的智能,这个“新物种”严重冲击了人类作为地球上唯一高级智能体的地位。因此可以说这是人工智能在聊天领域首次通过图灵测试。此后人工智能专家们把智能问题变成了大数据问题,可以说“人工智能”就是“数据科学”。

1950年,计算机之父阿兰·图灵提出设想——“机器真的能思考吗”,人工智能的研究目标由此明确。现在公认的人工智能起源是1956年的达特茅斯会议,约翰·麦卡锡、马文·明斯基以及克劳德·香农等人在达特茅斯举行研讨会,提出了“人工智能”这个名词,人工智能的定义简单来说就是让机器完成一些需要人的智能才能完成的任务。

美国美林银行预测,2025年以前,人工智能每年产生的创造性破坏的影响可能会达到14万亿到33万亿美元,其中包括因人工智能实现了知识工作自动化,导致雇用成本减少的9万亿美元,制造业和医疗护理开销减少的8万亿美元,以及部署无人驾驶汽车和无人机后因效率提升增加的2万亿美元。

麦肯锡全球研究院的观点更加惊人:人工智能带来的社会转变比工业革命“发生的速度快10倍,规模大300倍,影响几乎大3000倍”。

我们不禁要问,人工智能为何有如此逆天的威力?

持续两百多年的工业革命创造的各种机器大幅超越了人类的体能,正在爆发的人工智能革命在快速追上并超越人类的智能,这个“新物种”严重冲击了人类作为地球上唯一高级智能体的地位。

2016年3月20日,清华大学语音与语言实验中心网站宣布,它们的作诗机器人“薇薇”通过社科院等唐诗专家评定,通过了“图灵测试”——“薇薇”创作的诗词中有31%被认为是人创作的,超过了30%这个合格标准。

什么是图灵测试?图灵测试的核心是“计算机能否在智力行为上表现得和人无法区分”。我们在墙后放一台计算机,放一个人,然后问一些问题,比如为什么会出现父系社会?计算机和人都给出一些解释,当我们无法判断哪个解释是计算机给出来的,哪个解释是人给出来的时候,就可以认为这个计算机和这个人有同等的智慧。

图灵测试大会的具体规则是,如果在一系列时长为5分钟的键盘对话中,某台计算机被误认为是人类的比例超过30%,那么这台计算机就被认为通过了图灵测试。2014年的图灵测试大会共有5个聊天机器人参与,其中俄罗斯科学家开发的“尤金·古斯特曼”成功地被33%的评委判定为人类,它模拟的是一个13岁乌克兰男孩。在这次测试中,对话是不受限制的,而真正的图灵测试正是不预设问题或主题的。因此可以说这是人工智能在聊天领域首次通过图灵测试。

随着越来越多的机构宣称自己设计的智能程序通过了图灵测试,人工智能拥有与人类同等的智能成为人们必须正视的现实。正如发明家们不是靠模仿鸟类发明飞机,从而实现“人工飞行”;也不是靠模仿鱼类发明潜艇,从而实现“人工深潜”;人工智能也没有完全模仿人类大脑思考的生物过程,却能在越来越多的领域实现与人类智能相同的结果,而且速度更快、效果更好、成本更低。

阿尔法狗是当今人工智能的先进代表,它排名世界第一的围棋棋力来自于30万张人类高手对弈棋谱以及3000万次自我对弈,其思考能力来自“大数据(来自互联网、物联网)+深度学习(优秀算法)+云计算”。

大数据、深度学习和强算力(云计算)是当今人工智能技术的三大基石。

把智能问题变成大数据问题

20世纪中叶,很多计算机科学家认为,如果计算机实现了下面几件事情中的一件,就可以认为它有智能:1.语音识别;2.机器翻译;3.自动回答问题。

1972年,康奈尔大学教授弗莱德里克·贾里尼克来到IBM沃森实验室进行学术休假,应邀挑选了一个他认为最有可能突破的智能课题——语音识别。

贾里尼克的专长是信息论和通信,因此他看待语音识别问题的角度不同于人工智能的专家们。他把语音识别看成是一个典型的通信问题:人的大脑是信息源,想到一件事并说出来,是一个编码的过程;这句话经过空气或者电话线传到听众耳朵里,是一个经过信道的信息传播问题;信源有信源编码,信道有信道编码,整个是一个编码过程,最后听众把这句话听懂,是一个解码的过程。既然语音识别是通信问题,就可以用解决通信问题的方法来解决。贾里尼克先用两个马尔可夫模型分别描述信源和信道,然后用IBM积累的大量数据训练和使用这两个模型。这个方法让IBM将语音识别率从当时的70%左右提高到90%以上,已经基本能让人们理解语音内容了;同时语音识别的词汇量从两三百个单词上升到两万多个单词,足以走向实际应用。

贾里尼克的新思路被称为数据驱动,这种方法有个很大的好处:随着数据量的积累和计算能力的增强,系统的表现会越来越好。很多其他方法的改进需要靠理论的突破,改进的周期会很长,其效率不如数据驱动方法。此后人工智能专家们把智能问题变成了大数据问题,可以说“人工智能”就是“数据科学”。

数据驱动的威力还体现在谷歌在机器翻译领域的巨大成功。2005年,美国国家标准与技术研究院对全世界各机构的机器翻译系统进行评测。在阿拉伯语到英语翻译的封闭集测试中,谷歌系统的评分为51.31%,领先第二名将近5%,而提高这五个百分点在过去需要研究7~10年;在开放集的测试中,谷歌51.37%的得分比第二名领先了17%,大约领先了一代人的水平。谷歌的机器翻译系统只研发了半年多的时间,并没有创造更高明的方法,但它使用的数据量比其他机构高出了近万倍,大数据就是它大幅提高机器翻译智能的方法。

前面提到,机器智能面临三大考验,除了语音识别和机器翻译,还有“自动回答问题”。《浪潮之巅》和《智能时代》的作者吴军曾负责谷歌的机器问答项目,解决了30%左右的问题,这远远超过了学术界同类研究的水平。除了依托谷歌世界领先的自然语言处理等基础算法,吴军成功的关键在于转换了思路,把这个过去认为是纯粹自然语言理解的问题,变成了一个大数据问题。

由于谷歌有完备的大数据,用户在互联网上问的各种问题,有80%左右可以在前十条自然搜索结果中找到答案(去掉广告、图片和视频等搜索结果)。因此,机器自动问答这个难题可以转换成在大数据中寻找答案的摘要问题。谷歌先用算法把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,接下来是用自然语言处理算法把摘录的文字片段进行拼凑,组成符合语法而且读起来通顺的自然语言。

总之,大数据是人工智能的第一块基石。机器的学习过程和人类是不一样的。一个小孩见到几只猫从自己眼前走过,妈妈告诉他这是猫,他下次见到别的猫就能知道这是猫。而要教一台机器来识别猫的话,可能需要给它提供超过100万张猫的图片来学习。所以说有大数据才有人工智能。

大数据究竟有多大?它是怎么来的?

人类将世界“数据化”的努力已经持续了上万年,从结绳记事到统一度量衡,再到十进制算法和复式记账法的发明,数据化给人类的生产和生活带来了无数便利;现代科学使得气压、电流、温度、磁场等现象被量化,这一轮数据化浪潮使得人类文明又前进了一大步。

加州大学伯克利分校信息学院的研究者估计,人类在计算机商品化之前的整个历史过程中积累了约12艾字节(Exabyte,1EB=260字节)的数据,但是到2006年,积累的数据已经达到180艾字节。2010年,全球线上和线下产生的数据量首次超过1泽字节(Zettabyte,1ZB=270字节)。1泽字节大约等于1万亿GB,大约可以装8000亿部清晰电影,或者相当于1000亿人一辈子说的话——1个人一生大约要说10亿句话。

可以说人类从2010年开始进入大数据(Big Data)时代。2012年,有人统计了互联网一天产生的数据总量:每天发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的博文达200万篇,相当于《时代》杂志770年的文字量;每天有2.5亿张照片上传至Facebook,如果把它们都印出来,摞在一起能有80座埃菲尔铁塔那么高;每天会有1.87亿个小时的音乐在音乐网站Pandora上播放……总之,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD。这还只是大数据时代刚起步时期的数据量。

大数据一方面来自我们在网络上的各种活动,比如搜索、社交和网购记录等。互联网的快速发展使得数据量井喷,每个人每天的活动都数据化了——邮件、日历、定位、商品和服务的订单、身份识别,用户的行为、喜好、知识以及社交联系都在大数据中显现。

大数据的另一个来源是廉价传感器的普及,各种智能手机和可穿戴式设备、智能车载设备都有非常精准的传感器,此外监测空气质量、交通流量、海浪高度的传感器也在持续增加。

今天,我们已经依靠互联网实现了信息和信息、人和人的互联,展望未来,所有物品也将靠廉价传感器连接在一起。每件物品上都将贴上一个售价仅4美分的RFID(这是指甲盖大小的不干胶,可通过无线电讯号识别特定目标并读写相关数据)。纳米物联网尤其值得关注。科学家们已经开始把传感器的尺寸从毫米或微米级缩小到纳米级,小到能在生物体内循环、能直接混合到建筑材料内,这是朝纳米物联网迈出的关键第一步。未来数十亿纳米传感器会为我们提供与城市、房屋、工厂甚至我们身体有关的更详细、更廉价、更新的图像。

当一切信息、人和物品都连接在一起,每年产生的数据量将会比互联网时代更上一个新台阶。

温故人类发展史,我们才能深刻理解大数据的意义。

在农业社会和工业社会,自然资源是经济社会发展的主要动力,比如各种动植物、能源、矿产等。进入信息社会,知识和信息成为经济社会发展的主要资源,知识的力量开始远超金属的力量,正如工业革命期间金属的力量远超身体的力量。

知识可以细分成四类:数据、信息、知识和智慧。数据经过整理变成信息,从信息中可以总结出知识,比如开普勒总结出行星运动的三大定律,知识通过反复实践融会贯通就是智慧。

两千多年前,人类只能利用竹简和羊皮等笨重或贵重载体,因此只能把最重要的东西书写下来,比如四书五经、《老子》《庄子》《伤寒杂病论》这样的智慧结晶与核心知识。

进入工业社会,造纸术和印刷术高度发达,各种各样重要或不重要的知识都得以被书本记载和传承,重要的信息也能通过报刊来普及,这对于人类的经济发展和文化繁荣起到了重要作用。

在信息社会,从国家大事到明星八卦,从企业动态到家长里短,从股票交易到网络购物,所有种类的信息漫天飞舞。虽然很多人在抱怨“信息过剩”“信息过载”,但与此同时经济的繁荣却更上一层楼。

从上述历史可以看到,从智慧到知识,从知识到信息,随着知识普及层级的一步步降低,经济社会的发展一步步升高。

今天我们进入了大数据时代,进入知识层级的底层,这显然意味着一个巨大历史机遇的到来。

数据是一种资产,是一种待挖掘的资源。数字化增加了人类对这个世界的了解,提高了预测的准确性,让科学研究更加畅通。比如《第二次机器革命》的作者埃里克曾创建一个简单的数据模型,这个模型把搜索词语的变化和随后的房产销量和房价的变化联系在一起做预测。它比美国房地产经纪人协会的预测专家们的预测结果还要准确23.6%。

大数据已经成为许多公司的核心资产,马云曾表示,“我们是通过卖东西收集数据,数据是阿里最值钱的财富”。

但目前的大数据并没有实现全面流通。政府、银行、通信运营商、医疗机构都拥有庞大的含金量很高的数据,但缺乏一种安全有效的办法把它们开放出来,无法在众多领域发挥出价值。

目前制约人工智能领域很多重大突破的关键,是缺乏高质量的数据集。这一问题已经得到包括中国政府在内的各国政府的重视。随着这些数据在未来获得安全有效的开放,人工智能将依托大数据了解每一个人的生活,了解社会的每一个细节。

要利用大数据,必须深刻理解大数据的特征。

除了数据量巨大(一千万个数据算小数据)这个特征,大数据还有两个重要特征:多维度和完备性。接下来我们通过案例来理解这两个特征。

气象局会结合空气湿度、气压信息、云图信息来预测天气,这就是我们所说的多维度。

2013年,百度从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些有趣的结论,发布了《中国十大“吃货”省市排行榜》。百度发现,东南省份的网友很关心什么虫子能吃;西北地区的网友最关心“蘑菇能吃吗”;江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”;在缺少江河湖泊滋润的宁夏,网友最关心的是“螃蟹能吃吗”;历史浏览量最高的问题是“看电影吃爆米花的习惯是从何时形成的”,有863万网友热切关注。

百度研究的这批大数据的维度很多,比如食物的做法、吃法、成分、营养价值、价格,问题的来源地域和时间,提问者所用的电脑或手机的型号、浏览器和操作系统的类型(从中可以推测出提问者的收入高低)。百度如果深入分析,可以通过提问统计出不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等)的饮食习惯,还可以统计出不同年龄、性别和文化背景的人的饮食习惯,还可以根据不同年份所提问题的变化,看出不同地区人饮食习惯的变化。

从百度这个例子可以看出,大数据的不同维度之间有着天然的(而非人为的)联系,因此我们可以从不同角度挖掘出很多有意思的结论。

如果人工智能了解一个美国人的出身背景、朋友、家庭以及他读的书、看的电影,它就能从这些维度的数据中,推断出他在联邦选举中的投票行为。

未来农业领域会是依靠多维数据进行决策的。水果蔬菜每天的生长数据、未来的气象数据、新增的订单数据、目标市场的人口变化数据、大宗商品交易行情……智能机器通过分析各种维度的数据,就可以精准决策未来的种植。

多维数据在医疗领域也大有用武之地。饮食习惯、运动习惯、使用手机的习惯、父母的健康情况、经济情况都可以影响一个人的身心健康,未来这些多元化的数据都能被收集到,并被相应的人工智能算法处理,从而得出更科学的诊断结果。

顺便说一句,每个维度都需要不少数据,这意味着数据量必须很大——大数据的第二个特征和第一个特征是分不开的。

大数据还有完备性这个特征。

完备的数据蕴藏着巨大的威力。比如中国的公安部门把近14亿中国人的面孔或指纹全部收集齐就是典型的完备数据,信息越完备,不确定性就越小,这对于安检工作有很大意义。1997年IBM的深蓝计算机之所以能战胜国际象棋大师卡斯帕罗夫,除了计算力强大,还因为它具备了数据的完备性。它全面收集了卡斯帕罗夫以及世界上其他高手过去的棋局数据,并进行了深入分析。

再来看美国的一个著名案例。2012年,统计学家纳特·西尔弗用大数据对美国总统大选进行预测,他预测了共和党和民主党分别会在哪些州占优,结果100%准确,这是一个空前的记录。70年来,全球知名的民意测验机构盖普洛一直对美国的总统选举结果进行预测,它对大选最终结果的预测还比较准确,但具体到每一个州,是共和党总统候选人赢还是民主党总统候选人赢,它的预测结果就经常出错了。这说明抽样调查做得再好,也会有疏漏之处。

为什么纳特·西尔弗单枪匹马就能胜过盖普洛?他搜集了所有能搜集的数据,比如所有的民调结果、博客、微博、Twitter、Facebook、当地新闻等,他就是靠完备的大数据创造了民意预测的神话。

如果纳特·西尔弗能统计到每个人投票前一天的想法,他的预测就会更加精准。这是有可能做到的,因为移动互联网让人们时刻在线,这使得数据的完备性获得空前的提升。

完备的大数据有极其广阔的应用空间,比如谷歌无人驾驶汽车就是靠完备的空间大数据来“眼观六路,耳听八方”的。

开车绝对是个技术活,司机要全盘考虑迎面而来的车辆、交通信号灯、广告牌、树木、交警等一系列因素,判断每一个目标的大小和位置,以及哪一个目标是危险的。因此直至2004年,经济学家们还认为司机是计算机难以取代的。按照传统思路开发的自动驾驶汽车表现得确实很糟糕,在第一届无人驾驶汽车陆地挑战赛中,排第一的悍马只跑了不到20公里,而且时速只有8公里,比自行车还慢。

但谷歌却在短短几年内就真正实现了汽车的自动驾驶。谷歌同样是把自动驾驶问题变成了一个大数据问题。

谷歌的街景项目积累了大量空间数据,它的自动驾驶汽车行驶到这些“扫过街”的地方时,对路况是很熟悉的,包括马路道牙的高度、十字路口的宽口、红绿灯的高度、路旁消防栓的位置与高度,甚至弯道的曲线等。相比于那些每到一处都要临时识别目标的自动驾驶汽车,谷歌的自动驾驶汽车具有数据完备的优势,让人感觉它相当聪明。

此外,基于收集的海量数据,谷歌通过计算机模拟不同的路况条件,也能实现让自动驾驶汽车学习驾驶技能的效果。谷歌自动驾驶汽车每天模拟行驶的里程高达480多万公里,这样的疯狂练习是人类无法比拟的,因此其无人驾驶汽车很快超越了技术精湛的老司机。

从2009年项目启动到2016年5月31日,谷歌各类自动驾驶汽车已经在自动模式下累计行驶了260万公里,虽然发生了共计12起各种事故,但是谷歌方面表示没有一起事故是由自动驾驶汽车引起的,都是别人的车撞它,没有它撞别人的。谷歌分析认为其自动驾驶软件的驾驶水平相当于一个拥有90年驾龄的人类。

过去十年间,基于大数据的人工智能已经在各个领域崭露头角,除了前面提到的语音识别、机器翻译、自动回答问题和无人驾驶外,还包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议等。未来十年,离钱最近、产生用户最多、产生价值最大的金融、法律、医疗、教育等拥有大数据的行业,也将被人工智能深度再造。

深度学习算法从大数据中发现“套路”

在大数据时代,如何有效利用、发掘数据成了关键问题。迄今为止,人工智能领域最先进、应用最广泛的技术解决方案是深度学习算法。

大数据好比是原材料,深度学习则是原材料加工厂。

深度学习不再需要人类专家去煞费苦心地提炼模型,机器自己就能从大数据中寻找特征、发现规则、总结模型。通俗点说,深度学习是擅长“发现套路”的行家里手。

普通人会针对每个具体问题寻找不同的解决方案,费时又费力,而高手擅长看到不同问题的相通之处,可以用同一个套路来处理。

比如做品牌文案的从业者大多是凭感觉,靠灵感。知名营销专家李叫兽则告诉大家,只要掌握了科学的营销方法,写文案就像做数学题一样套用公式就可以推导出来。掌握了套路,就能始终保持高效率和高质量的输出。

由于深度学习能处理的数据量远超人类,它发现的“套路”可能比人类更高明。阿尔法狗的好多次非常规落子,都让许多专业棋手表示“看不懂”。阿尔法狗早就不依赖看过的棋谱来决策落子的选择,它对人类的棋局资料进行了一个全新的“分析和总结”,发现了新的“套路”。

不仅很多体力工作是套路化的,其实很多知识性工作也是套路化的:能否给一个企业提供贷款可以被归结为一种规则,计算机因此能够用于对贷款申请的批准;商业新闻记者和经常做一堆数字分析的体育记者也是按套路写作的。

一旦发现了某种工作的套路,人工智能的判断力就能持续保持高水平。来看两个例子。

谷歌在Gmail上推出的智能自动回复功能Smart Reply,能对海量邮件里的场景、邮件写作风格和写作语气进行分析,从而帮助用户筛选适合语境的回复短句。

在2015年某国家级英语考试阅卷中,科大讯飞的产品在翻译题和作文题中的评分比大多数专家老师的评分准确度还要高,同时科大讯飞的评阅系统可以指出具体语法错误、格式错误和错词等。语文作文的评分相对难一些,因为要评判作文的立意和整个篇章的结构,不像英文更多的是看有没有字词拼写和句子结构错误。但是科大讯飞语文作文的评阅系统也通过了验证,相关性、分差上表现得也比专家要好。它还能写作文评语,找出文章立意和篇章结构上的错误,区分出议论文的引论句、立论句和论点,可以方便学生查找自己薄弱的地方。

传统计算机需要专家传授套路,人工智能则能够自己发现套路。

大约半个世纪前,机器就能完成一些高难度的认知任务,但机器能处理的是一些经过预先手工编程的任务,或者进行一些预设程序的计算,它们并没有自学能力。比如要训练一台计算机来识别银行交易中的诈骗交易,必须由专家预先准确地告诉它所需要查找的内容。如果没有人能解释完成一个任务时的所有步骤,那么也就没有程序员能将这些规则嵌入到软件中,这个领域的问题就无法被机器处理。

深度学习跨越了这个巨大障碍,即使没有人类教导,机器也能学习了。还是以识别诈骗交易为例,我们只需将一些标记上“欺骗性的”和“非欺骗性的”数据交给计算机,然后计算机依靠算法就能学会应该去查找哪些内容,告诉你是否存在欺诈行为。

判断某个基因会不会发生病变,需要运用通过参考医学论文而得来的推理规则,人工智能可以吸收许多医学论文,明确地制作出疾病预测的推理规则。人类在漫长的抗癌过程当中写了大量文件,进行了大量分析,有2300万个相关的文件和医学研究文章。IBM估计,仅做到和相关的医学信息及资料保持同步,一位人类医生每星期就要把160个小时花在阅读上,这显然不现实。未来的医疗进步离不开人工智能的分析能力。

再以图片识别为例。传统算法认猫,是靠人类标注猫的各种特征,然后让机器去学习这些规则,比如猫有大眼睛,有胡子,有花纹,有尾巴。但人制定的种种规则是有缺陷的,有时候机器会分辨不出猫和老虎,或者分不出狗和猫。深度学习算法是直接给机器几百万张图片,告诉它这里有猫,同时再给机器上百万张图片,说这里没猫。人工智能通过深度学习自己去学猫的特征。

深度学习与人的认知过程相似,大致分成两个步骤:首先是分层,把要认识的事物特征分成若干层次,比如把猫的识别分成轮廓识别、颜色识别、毛发识别、五官识别、行动方式识别等层次来分别进行辨认和比对。其次是针对每个层次分别进行数据收集,比如看大量各种轮廓的猫、各种颜色的猫、各种毛发的猫、各种五官的猫、各种行动方式的猫,形成一个综合认知。之后把目标物(比如一张新的小猫照片)根据分层进行拆解并与之前总结的各层特征分别进行比对和打分,最后兼顾各层进行综合评分。

再以人脸识别为例。当我们的眼睛极其靠近一张人脸图片进行观察时,只能看到人脸上的像素级别点;当我们把距离一点点拉开,就可以观察到人脸的线条→图案→局部→人脸,这是一步步获得高层特征的过程。深度学习与此相似,通过逐层训练的方法降低了判断的难度:底层网络学习出点、直线、曲线、拐角等初级特征,中层网络在此基础上学习出眼睛、鼻子、嘴等器官特征,高层网络则进一步组合这些器官特征,判断出图片是否包含人脸。

深度学习的另一个重要机制是外部反馈。

比如智能机器的语言能力要提高,必须有大量的外部反馈,就像孩子通过父母的不断反馈快速提高自身语言水平。微软曾在2015年推出对话机器人Tay。它能够学习、模仿用户的语言,在大量用户无数粗俗对话的刺激下,Tay在一天之后就满口脏话了,就像一个学坏了的不良少女。截至2016年5月,伴侣虚拟机器人“微软小冰”已和多个国家的数千万人类进行了超过200亿次对话,平均对话长度达到23轮,而图像等多感官的对话也已超过2亿次。频繁的外部反馈让“微软小冰”的对话能力突飞猛进。这两个例子说明了频繁对话在机器人语言学习中的威力。

谷歌和Facebook也都在利用广大用户的频繁互动,锻炼自己的人工智能的语言能力,让它知道什么样的句子是好的,什么样的表达方式是对的,最终掌握人类语言。

深度学习作为一种先进的算法,引起业界广泛重视是在2012年,那年的ImageNet挑战赛展现了深度学习的巨大威力。

ImageNet是一个拥有数百万张各类图片的在线数据库,所有图片都有人工做的标签,比如“台灯”或“网球”。

每年的ImageNet竞赛主要用来衡量各种图像识别系统的进展。这些系统首先使用被正确标记的图片集进行训练,然后挑战标记之前没见过的测试图片。

2010年获胜的系统可以正确标记72%的图片;2012年,多伦多大学的Geoff Hinton带领的团队凭借新技术“深度学习”实现了85%的准确率;在2015年的ImageNet竞赛上,一个深度学习系统以96%的图像识别准确率第一次超过了人类——人类平均有95%的准确率。

深度学习源于人工神经网络(ANN)的研究。一个简单的ANN网络有一个输入层,在这里数据被输送进网络中;还有一个输出层,这里会输出结果;输入层和输出层中间可能还会有两三个隐藏层对信息进行处理。ANN曾在识别手写数字等少数任务上实现了成功应用,但在完成更为复杂的任务上陷入了困境,因为真正达到实用所需要的数据和计算能力都不具备。

进入21世纪,数据和计算能力问题都得到了解决。一方面是多种多样的数据大量出现;另一方面,到2009年左右,几个人工智能研究团体发现,个人计算机和视频游戏机上用于生成精致画面的GPU也同样适用于运行深度学习算法,并且能够几百倍地加速深度学习系统。这样训练一个四层的神经网络就变得很快了,由之前需要花费几周的时间变成了不到一天时间。

依托于成熟的深度学习技术,2012年ImageNet挑战赛的优异成绩震动了科技界,此后更多机构投入开发深度学习系统中。二三十层的网络变得很常见,微软的研究人员曾建立过152层的网络,因为更深层的网络能进行更高水平的抽象并产生更好的结果。

这些机构的投入取得了哪些成果?深度学习是仿人类大脑神经感知外部世界的算法,而最直接的外部自然信号莫过于图像(包括人脸)、声音和文字(非语义),深度学习首先在这几个领域取得了重大进展。

人工智能的人脸识别能力已经超过人类。2014年,香港中文大学的团队开发了名为DeepID的深度学习模型,在LFW(Labeled Faces in the Wild,人脸识别使用非常广泛的测试基准)数据库上获得了99.15%的识别率,而人用肉眼在LFW上的识别率为97.52%,这是深度学习在人脸识别领域的重大突破。

图像识别的一个重要应用领域是协助医疗诊断。有一家公司出了一种胶囊摄像头。胶囊吃进去后,它能在你的消化道每隔5秒就拍一幅图,然后再排出人体,这样就能将所有关于肠道胃部的问题全部完整记录。这个技术可以代替痛苦的胃镜检查,但同时带来一个问题,医生光把那些图看完,就需要5个小时。这个问题的解决方案是深度学习。他们将8000多例图片数据灌进去,让机器自学诊断规则,提高了诊断精确率,减少了医生的漏诊问题。

传统的语音识别算法,在噪音的环境下达不到可用的级别。深度学习使得识别错误率在以往最好的基础上相对下降30%以上,达到了商业可用的水平。最近几年语音识别得到了极大的提高,科大讯飞的很多产品能达到95%以上的识别准确率。

在文字识别领域,谷歌在垃圾邮件过滤器中引入了深度学习。这一技术能够通过分析大量计算机上的电子邮件学习识别垃圾邮件和钓鱼邮件,其垃圾邮件拦截率提高到了99.9%。

深度学习算法在商业领域的运用已经非常深入。我们来看来自阿里集团执行副总裁曾鸣介绍的一个典型案例:依托淘宝网的大数据,蚂蚁小贷能做到在几秒钟内决定是否给小商家们发放贷款。

淘宝卖家正在卖哪些商品、生意好不好,卖家经营店铺是否勤快、之前是否有过不诚信的行为……这些淘宝网分享给蚂蚁小贷的数据的丰富度、准确度远高于传统银行能采集到的贷款者的信息。

在“全面了解客户”这点上,蚂蚁小贷拥有了非常关键的数据优势。接下来算法工程师们建立了一套算法模型来处理这些海量数据,给每位客户的信用水平打分,根据分数决定是否贷款。

基于在线数据和算法的模型是实时迭代的,这和传统数据分析有着本质区别。

一方面,随着新数据的不断涌入,这个信用分会随之变动。根据客户的每一单交易、每一次旺旺上线、每一次还款,蚂蚁小贷会每天更新一次客户的信用分,这样的更新频率是传统银行绝对做不到的。

另一方面,客户的还款行为实时检验着蚂蚁小贷“算”得“准不准”,算法模型也据此实时优化。检验算法优劣的核心标准就是一条——“客户后来还款了吗”,或许一个被打了很低信用分的客户及时还款了,一个高分客户反而卷款跑路了,算法必须根据预测和实际结果的差别进行调优。哪些维度的指标应当被纳入到或清除出模型、客户的哪些行为特质应该被赋予更高的权重、在不同的情形下哪些算法模型有更高的准确度,蚂蚁小贷的算法模型会每周更新迭代,而传统金融的效率再高,一次更新也往往需要6个月。

蚂蚁小贷决定“贷多少”“收多少利息”这两个问题也是类似的过程。比如算法工程师们测算出每家店铺的主打商品的生命周期(是新品正在攒口碑、是正在热销、还是即将打折清仓)、每家店铺的毛利率等等数据指标,加入更多的卖家社会关系数据(因为人以群分),以精准确定贷款额度。

在这个过程中,客户的数据越来越丰富,算法模型也越来越靠谱,贷款风险控制的成本越来越低,贷款者的体验也越来越赞,覆盖的贷款用户也越来越广。正如我们在蚂蚁小贷这个典型案例中看到的,智能商业的效能相对于传统商业是质的飞跃,是全面超越。

处理大数据需要强算力

海量的数据给深度学习提供了足够多的素材,而大数据的处理需要强算力。

深度学习的理论现在还不够成熟,很多时候需要大量尝试。神经网络需要多少个隐层来训练,到底需要多少有效的参数等,都没有很好的理论解释。很多研究者在建立多层神经网络的时候,还是花了很多时间在枯燥的参数调试上。处理同样一个难题,如果A机构做一次运算需要十天,而B机构只需要一天,B机构就能做更多实验,积累更多经验,获得更大成就。因此强大的计算力很关键,这是人工智能的第三块基石。

很多数据量超大的问题只有超越人类大脑的计算力才能进行处理。

以癌症治疗为例。癌症之所以治不好,是因为癌细胞在变化。正常细胞复制错了就成为癌细胞,一旦细胞复制错了就不按照规律复制了,会一错再错。抗癌药开始控制得很好,后来无效了,原因就是细胞变异了。治疗癌症唯一的希望是细胞变,药也变。但靠传统做法,这种疗法的成本高达10亿美元。所有可能的恶性基因复制错误和各种癌症的组合是几百万到上千万种,出路是利用大数据技术,在这上千万种组合中找到各种真正导致癌变的组合,并对每种组合都找到相应的药物,形成一个很大的药品库,那么每个癌症患者的细胞发生病变,只要从药品库中选一种合适的药即可,而无须去发明新药。发明这些药物形成药品库的总成本无疑是巨大的,但平摊到全球所有癌症患者身上,人均只需3万多人民币。在现代保险制度的帮助下,这笔钱是大部分人都承担得起的。

再以交通调度为例。在阿里的人工智能调度交通的应用中,智能机器要对一个城市成千上万个路段的海量历史数据进行处理和学习,以获得全天的路况模拟,再结合每个路口新传回来的车辆识别、车速识别等智能视频信息,来做全局的、实时的分析。这对数据处理能力的要求无疑是极高的。

法国哲学家德日进曾感慨:“我一直在思考那些让人惊叹的电子仪器……有了它们,我们的计算和综合思维能力增强了,工作和研究进程成倍加快,对这些进步……即使用叹为观止来形容也毫不为过。”

进入信息社会后,经济增长的根本动力是摩尔定律。摩尔定律提出于1965年,简单来说就是,每一美元所能买到的计算机(集成电路)性能,将每隔18个月翻一番,或者说同样性能的集成电路在18个月后会便宜一半。摩尔定律的有效性持续了约半个世纪,计算能力的指数型增长带来了全球的自动化和信息化。

2011年,一台iPad 2的计算能力可达到1600MIPS(计算机每秒执行的百万指令数),购买这样的计算能力只需要499美元。2012年10月发布的iPad 4的计算能力已经高达17056MIPS,是1年前的10倍多,却和iPad 2卖了一样的价格。

在20世纪50年代,购买一台iPad 2的计算能力的计算机要花100万亿美元。而2015年全世界GDP总量仅为77.3万亿美元,其中只有美国和中国的GDP超过10万亿美元。这意味着如果带着一台iPad 2穿越到60年前,你就是全球首富!

随着大数据时代的到来,各机构对于提高计算能力的需求越来越大,传统计算机在发展中已经逐渐遭遇功耗墙、通信墙等一系列问题,其性能增长越来越困难,除了前面提到的比CPU更快的GPU,量子计算的潜力更加逆天。

量子计算机运行的是量子算法,处理速度极其惊人。与量子计算相比,目前全世界计算机的计算能力都非常弱。中国科协副主席、量子卫星首席科学家潘建伟2016年预测,不到十年左右的时间,就能够造出一种专用的量子计算机或者叫作量子模拟机,在某些计算能力上要比目前最快的传统计算机快百亿倍甚至更多。在计算能力凶猛的量子计算机面前,传统传输的密件就像在裸奔一样。

量子计算机为什么能比常规计算机强大这么多?因为普通计算机只能按照时间顺序一个个地解决问题,而量子计算机却可以同时解决多个问题。传统计算技术可以比作在图书馆中看书,一次看一本;而与之相比,量子计算技术则是一次读完整个图书馆。这就是量子计算的逆天力量。

利用量子计算的超快计算速度,人工智能研究人员可以开发更智能、反应更灵敏的学习系统。

有专家认为量子计算将在30年内带来像欧洲工业革命一样的巨变,超强的计算力将提供更加精准的天气预报,大幅提升新药开发的效率,提升调度效率化解交通拥堵,提高国土安全情报分析能力,提供安全的加密通信,应付太空望远镜获得的更多数据……

2001年,IBM发表文章说:“在未来的几十年里,量子计算机很可能会走出科幻小说与科研实验室(主要在IBM),进入实际应用。”仅仅过了15年,2016年5月,IBM的研究团队就首次将该公司的量子计算机接入云端服务向大众公开,并且IBM希望几年之内就能开发出可用于量子计算机的实验芯片。

2016年8月,英国网络量子信息技术中心的科学家已经将量子逻辑门的精度提升到了99%,这一精度已经达到了实际构建一台量子计算机所需的理论精度基准。同月,中国量子计算机研发也取得突破性进展,中国科技大学量子实验室成功研发了半导体量子芯片和量子存储。量子芯片相当于未来量子计算机的大脑,研制成功后可实现量子计算机的逻辑运算和信息处理,量子储存则有助于实现超远距离量子态量子信息传输。

除了追求单个机器计算能力的不断进化,人工智能要实现强算力还需要依靠云端的服务器集群,即云计算。仅仅依靠单一处理器性能的提升无法应对增长更快的数据量,而且当数据量提高一万倍时,计算量通常会增加几十万倍甚至上亿倍。就算少量超级计算机能搞定这样庞大的计算量,它的价格也不具备普及性。因此,要将一个大的计算任务分到很多台便宜的处理器上去做并行计算,这就是云计算的重大意义。

阿尔法狗的计算能力比1997年战胜世界围棋冠军的“深蓝”强大了3万倍,但它不会拥有“深蓝”如房子般的体积,它只是在“云端”的一个无形的系统,它的处理需求会被分配给一个或多个数据中心里的N台计算机中,这就是云计算的魅力所在。

智能机器的可怕在于,它们的脑子可能是数据中心后的几万台甚至上百万台的服务器。比如智能无人驾驶需要大量导航数据,而这些数据是托管在基于云计算技术的远程服务器里的。

云计算平台可以划分为三类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储兼顾的综合云计算平台。

信息的储存能力和处理效率是衡量文明发达程度的重要指标。

在远古时期,背诵史诗的民间艺人承担着储存关键信息的功能,后来各民族发展出了文字和印刷术,信息储存能力得以大幅提升;九九乘法表和算盘则是用来提升信息处理效率的。

到了信息社会,信息储存变得十分廉价了,大家想想自己的电脑硬盘能装下多少电子书就知道了;摩尔定律、量子计算则是大幅提升信息处理效率的,因此计算机革命必然会加快人类文明的发展速度。

云计算技术既能提升信息储存能力,也能提升信息处理效率,因此可以大幅推动人工智能的发展,堪称人工智能的“大脑”。过去仅训练深度神经网络模型对某一物体的认知就要花费近一年时间,而现在这个时间被缩短到几天内。通过云计算技术,“谷歌大脑”能在上百万台的计算机上做神经网络,海量的计算能力让人工智能变得非常聪明,可以处理很多的智能问题。

总之,人工智能的“智力”水平将随着计算力的快速提升而持续进步。

人工智能继承了传统机器的优势,有着超级旺盛的精力,全年无休也不会感觉“身体被掏空”,是任劳任怨的劳动模范,管理起来很省心。

人工智能也继承了传统机器的强悍记忆力,人类不可能记住一千万张人脸,但人工智能记一亿张人脸都不在话下——全世界的罪犯都会痛恨这样的记忆力。

在很多工作中,记忆力大有用武之地。当我们进入一个大型超市,向员工询问某件商品的具体摆放位置时,他们可能想上半天才给出答案,但对一个机器人售货员来说,这都不是事儿。美国的Orchard Supply Store雇用了一个名叫OSHbot的机器人员工,它的大脑内置了GPS导航技术,并且存储有整个商店的地图索引,顾客们都很喜欢向它询问货物的位置。

除了继承旺盛精力和超强记忆力,人工智能还发展出了三大新能力:

一是感知力,如视觉、听觉、触觉、温度体感等;

二是判断力,包括推理、规划、预测、决策等高级智能行为;

三是进化力,单个人工智能的进化力已经很惊人,它们还具有人类永远无法企及的集体进化能力,这将使人工智能的感知力和判断力持续而快速地提升,能从事越来越多的体力和脑力劳动。

机器“活了”:能看见和听见世界

人工智能在很多任务中的感知效果已经和人类基本相当了,在一些领域甚至大幅超过了人类。

比如计算机的图像识别能力取得了飞速进展。ImageNet是视觉识别领域一年一度的“奥赛”,谷歌创造的世界最高纪录是4.82%——人眼辨识错误率大概为5.1%。人工智能对图像识别的能力不仅超越了人类,而且这种识别不会疲劳。

图像识别技术的突破,能让机器人识别消费者表情的微小变化,从而预测其情绪,改变推销策略,消费者可能因此在交易博弈中处于下风。我们甚至无法在剪刀石头布游戏中获胜,因为机器人的反应实在太快了。它能在百万分之一秒内识别我们的手将要摆出的形状,并选择获胜的手势,而这一切几乎是同时完成的。如果我们不知道智能机器的工作原理,或许会觉得它是靠读心术取胜的。

机器感知力的进步是怎么来的?智能手机普及后,很多人每天用手机自拍并上传到社交媒体,这些是带有(姓名)标注的优质数据,而且数量庞大,便于深度学习,系统看多了同一个人在不同的光线、角度、心情、化妆状态下的照片,人脸识别的能力就大大增强了。人脸识别的技术被应用于安防摄像头,如果识别出错,保安、警察会帮忙做纠正,人工智能的人脸识别能力于是在持续反馈和调整中进一步增强。

人脸识别技术带动了图像识别技术的整体进步,不管是仓库里的智能机器人识别零食包装,还是农业机器人识别水果成熟度、喷洒农药,或是无人驾驶汽车识别周边物体,其能力都大幅提升了。图像识别能力的提升使得机器能处理越来越复杂的情况,而且成本不高,因为不必依赖大量昂贵的传感器来感知环境了。

机器的感知力甚至可以达到人类永远无法企及的高度。比如人眼适应不了太高的分辨率,识别不了非可见光,识别不了各种波,识别不了三维的图像信号,而智能机器能够感知光谱的信息、红外的信息,有超越人类的视觉能力。

现在人工智能大规模应用的时机已经到了。当机器识别人脸的能力超越人类的时候,那些做识别人脸工作的人就要下岗了,比如保安、安检。当机器识别语音、理解自然语言的能力超过了人类,客服、电话推销的工作就会被机器取代掉。总之,在各行各业,如果人不能比机器做得更好,那各种机构就会决定用机器取代。

工业机器人

工业社会的机器人,只能在密闭的空间,重复简单的动作。由于内置了高精尖传感器,能够感知图片、人脸、语音、文本,第二代智能工业机器人具有较强的自主性和环境适应性,能实现制造业中的大规模“机器换人”,据专家估算可替换工序高达60%,其对制造业的经济贡献将是传统工业机器人的数十倍。

比如波士顿动力学工程公司所研制的大狗机器人能在不平坦的地面上载重而行。大狗机器人能够攀爬陡峭的山岭,在冰面滑倒后能再次站起来。这是机器人感知技术的重大突破。

在宝马汽车的无人工厂里,超过90%的工作都由机器人操作执行。这些机器人的生产商是全球工业机器人四巨头之一——德国库卡公司,特斯拉也是库卡机器人造的。德国正在推进“工业4.0”,库卡在这一战略中占有重要地位,库卡被德国总理默克尔誉为“德国工业的未来”。2016年首次进入世界500强的中国家电企业美的已经完成对库卡的收购,这是中国在工业机器人领域的一个重大进展。

库卡机器人究竟有多聪明?2014年,库卡公司发明了一款会打乒乓球的机器人,它打败了世界冠军波尔。库卡的机器人(机械手)锯一个圆木桩子,能一次性把它切割成2个三脚凳子和1个小木墩子;这个机器人十分敏捷,可以以每秒10毫米和50毫米的速度抵近物体,当遇到意外的阻碍后会以十分敏捷的状态瞬间撤回——它如果碰到生鸡蛋,鸡蛋不会破碎,它如果碰到工人的手,工人也会毫发无损。

一个用来分拣包装的六轴并联臂机器人与库卡机器人的双机协同系统可以代替4个工人,而投入不到人力成本的一半。

除了库卡机器人,其他公司研发的智能机器人也有卓越的表现。

在工业机器人领域,传统方法是给机械手写好函数,运动到标注好的空间点,利用程序实现一次抓取。而谷歌训练了一个深度神经网络,机器人会利用摄像头观测自己的机械臂,实时纠正抓取运动。谷歌用了14个机械手同时工作,经过近3000小时的80万次抓取训练后,机械手明显变得“聪明”了:没有经过训练的机械手,前30次抓取的失败率为34%,训练后的失败率降低到18%,也就是说,它的“手眼协调”能力在自我学习中大幅提升了。

机器人设计大师Rodney Brooks创办的公司研发了Baxter智能机器人,能够感知并能够用“手”操作从手柄到吸着杯等各种不同的零部件,只需要通过特定的指令抓住它的手腕,移动它的手臂就可以训练它完成相关的任务。Baxter的手臂关节都是经过铰接的,活动起来很流畅,所以如果工人站在它旁边工作,不用担心会被它打到。它还可以同时做两件不同的事,因为它的两只手臂是可以分别完成操作的。

广东长盈精密技术公司的抛光车间引进了60多台机械手,它们在软件“大脑”的操作下,日夜无休地打磨一个个手机中框结构件。此前抛光车间严重倚赖人工,高峰时车间工人达到了650多人,而现在整个车间只有约20人,未来还将进一步减少到10人左右。这源于效率和品质的大幅提升。之前一名熟练的抛光师傅每月的产能大约是8000个,而一台机器每月的产能为2万~2.5万个;之前人工操作的产品直通良率不会高于75%,而现在机器操作的产品直通良率可以达到95%……经过公司的培训,有些工人熟练掌握了机械手的操作流程,有些工人做起了机器维护,有的则负责机器调试,而大部分工人不得不面对被淘汰的命运。

和制造业一样,建筑行业同样容纳了大量工人,今天机器人也已经进军这一领域。

澳大利亚机器人公司Fastbrick Robotics 2016年推出机器人瓦匠Hadrian X,它用近30米长的机械臂1个小时内可砌砖1000块,只需要2天时间就能建造起整栋房屋。Hadrian X有很强的感知力,其自带的3D计算机辅助设计系统存储着房子的形状和结构,能计算出每块砖的位置,通过激光制导,然后丝毫不差地码上去。Hadrian X的机械手也可以使用砂浆或黏合剂,因此根本不需要人类参与建筑。它还可以为管道和电线预留空间,如果有必要,甚至能扫描和切割砖头大小、形状等。澳大利亚的泥瓦匠高度稀缺,从而带来了超级高薪,他们平均搬1块砖赚1澳元,一周工作4天,就能挣6000澳元(超过3万元人民币)。对他们来说,Hadrian X将成为强大的竞争对手。

这些汹涌而来的智能机器人甚至不需要比将要取代的工人速度更快,它们可以在黑暗中工作,这一点深得企业主的欢心。当机器成为“优秀员工”后,资本方对于普通劳工的裁员潮也将不期而至。国际机器人联合会估计2015年中国有26万工业机器人,根据一台工业机器人取代4~5名工人这一经验法则,机器人已使100多万工人失去了工作。随着中国每年持续采购十几万台工业机器人,2016年到2020年,预计机器人还将取代大约350万工人。

未来中国制造业的成功者必然是积极引入机器人来提升效率的企业,否则就会被击垮。这意味着中国制造业的一亿五千万工人很可能迎来黯淡的未来:大部分人因为工厂效率提升而被辞退,其他人因为所在的企业被高效工厂击垮而失业。

这些失去工作的工人将涌入服务业,但机器人同样在向服务业进军。为了完成100万美元的销售额,沃尔玛需要雇用5个人,亚马逊雇用1个就够了。这是人工智能将对传统服务业就业形成重大冲击的先兆。

服务业机器人

能“看见”和“听见”世界的智能机器在服务业中也大有用武之地。

比如苹果公司用无人机监控新总部每天的施工进度,拍摄出全部的工程进展录像和照片。无人机当然也可以用来做新闻报道、电力巡检,勘察矿山、农场、违章建筑、森林砍伐、敌军动态。

中国是无人机的最大生产国,中国有5万~10万的无人机飞手,除了航拍,有近50%选择了提供植保服务。

小麦、水稻这类农作物的最佳喷药时间很短,所以喷药的效率显得特别重要。如果是人工背负式喷药,一天可能只能喷二三十亩,不仅速度慢,对人身体也有毒副作用。用大疆的无人机来喷药,3个起降,半个小时基本可以抵原来一天的作业量,速度快了很多倍。安徽有个小伙子购入4台大疆MG-1农业植保机,仅38天的时间,作业面积就超过了两万多亩,纯收入超过10万元。

无人机最大的应用是物流配送,未来快递大多靠无人机递送。

2016年9月,一架运了几十份报纸及包裹的无人机从浙江省安吉县杭垓镇起飞,15分钟后,这些邮件就被送到了当地七管村村民手中。这是浙江邮政推出的首条无人机邮路试点,主要负责山区村庄的邮件接收投递,相比汽车运输投递,时间和人力、物力成本要下降不少。因此,用无人机送报纸包裹,与邮递员人工送所收取的费用是一样的。

机器在物流方面的惊艳表现不止无人机这种产品。

2012年,Kiva被亚马逊公司以7.5亿美元的价格收购。Kiva的机器人能在仓库里安全、快捷、高效地搬运物品,并能灵活地避开工人和彼此的碰撞。亚马逊高管称启用Kiva机器人可提高近50%的分拣处理能力,Kiva机器人能根据无线指令的订单将货物所在的货架从仓库搬运至员工处理区。在机器人的帮助下,一名亚马逊仓库员工每小时可扫描300件商品,此前则只能扫描100件。机器人还免去了仓库员工每天走数十公里的烦恼。

除了在仓库里搬运货物,物流业还有给卡车装货和卸货的工作。硅谷的Industrial Perception公司的机器人可以检查卡车内部,选择某个物品,然后捡起来。机器感知力的这一进步又将取代一批人力。

2014年,中国社会物流总费用在GDP中的占比为16.6%,与发达国家物流占GDP约10%的比例还有很大差距,利用人工智能技术提高物流效率、降低成本成为一个重要的思路。

在京东正着力打造的智慧物流中心“无人仓”里,从入库、在库到拣货、分拣、装车的完整过程都无须人力参与,让库房拥有极高的效率和出色的灵活性。

丰富的数据感知、人工智能算法决策和机器人系统组成了京东无人仓的眼睛、大脑和四肢。整个无人仓技术的实现,算法是核心和灵魂。例如在上架环节,算法将根据上架商品的销售情况和物理属性,自动推荐最合适的存储货位;补货环节,补货算法的设置让商品在拣选区和仓储区的库存量分布达到平衡;出库环节,定位算法将决定最适合被拣选的货位和库存数量,调度算法将驱动最合适的机器人进行搬运以及匹配最合适的工作站进行生产……

随着京东大数据和人工智能技术的迅猛发展,无人仓的“智力”还将持续提高,让仓储的运营效率不断逼近最优值。京东眼中的智慧物流是一个完整的体系,无人仓解决进货、存储、拣货、包装、分拣等环节,无人车主攻城市环境下的最后一公里配送,无人机则锁定乡村配送……这张智慧物流的大网将让消费者拥有更便捷的购物体验。

再来看看无人车在服务业中的应用进展。

绝大多数交通事故都是由人为因素造成的,包括酗酒、疲劳、分神、情绪失控、反应不及时等。自动驾驶汽车不存在上述问题,预计可以避免大部分的交通事故。专家们普遍认为,20~25年后,75%的汽车都会是自动驾驶汽车。占全球工作人口9%的司机,大部分将面临失业。

比如美国有170万名长途卡车司机,这些司机的饭碗很有可能被无人驾驶卡车抢走。2015年,矿业公司力拓集团在澳大利亚的西澳大利亚州投入69辆无人驾驶卡车。这种全自动无人驾驶卡车由1500公里以外的工作人员操控。工作人员事先将矿区地图输入车载计算机,其相关系统会自动设置卡车的行进路线。自动驾驶车队的效率要比人工驾驶车队平均提高12%,而这主要是由于避免了休息、换班、缺席和罢工等带来的效率损失。此外,自动驾驶卡车的反应时间接近于零,车队可以在相互间距只有十几厘米的情况下安全行驶,这样的车队可以减少道路堵塞,并节省15%以上的燃油。

2016年9月14号,优步(Uber)在美国匹兹堡市区推出了无人驾驶出租车免费载客服务,市区里有上下坡、狭窄道路、隧道等,无人驾驶出租车没有限定在特定区域,这个试运行水平比新加坡的无人驾驶出租车要高出不少。目前优步已有4辆混合动力的福特车改装的无人驾驶出租车,还有12辆车备用,而且也测试将近2年了,基本没有出现什么事故。预计3~5年内无人驾驶出租车能达到比较成熟的阶段。

除无人机、无人车之外,智能家庭机器人也是一个研究热点领域。

家庭清洁机器人是最成熟的智能家庭机器人。iRobot公司研制的扫地机器人、擦地机器人等家用机器人全球销量已突破1400万台,改变了人们室内外传统清洁方式。

现在有一款机器人扫地机具备了很高的感知力:它可以通过天花板卫星定位系统,熟悉环境,然后储存整个空间的分布图,从而制定相应的清扫路线;它比传统的吸尘器多了“扫”的功能,对于地面上的垃圾,可以通过感应或扫描,然后选用是用擦、吸或扫的方式进行清理;此外,它还可以用高速旋转的气流吸入蚊子、苍蝇等害虫。

智能浇水机器人会在住宅后院先走走看看,采集数据,以此确定哪儿比较干需要多浇点水,哪儿比较湿就少浇水或不浇水,它还可以与天气预报关联,总体上可以省89%的水量。人们也可以拿它做别的事,比如说洗窗户和洗车,因为可以对它的高度、角度以及走到哪儿的位置等进行编程。

智能机器“看见世界”的能力在医疗领域也大有用武之地。

可弯曲机器人The Flex是一种柔性管状机器人,医生将其插入患者的嘴巴,可到达非常难到达的解剖区域,并通过其前端摄像头看清楚这一区域,这样就不用在患者下巴或其他位置进行切口手术了。这种手术方式快速便捷,使医疗成本更低。

手术机器人达·芬奇能帮助微创外科医生以更高的精度和更少的误差进行手术操作,迄今已经成功地在全世界进行了150万例的手术。达·芬奇的器械尺寸以厘米级计算,所以非常擅长高精度手术,比如前列腺摘除、甲状腺、妇科肿瘤、胃肠、心脏瓣膜修复等手术,其手术创口小,出血少,患者恢复时间也大大加快。传统腹腔镜手术最困难的是缝合、打结,达·芬奇机器人能够比人做得更好。科学家们从医学院里收集了大量的数据,建立各种模型,从而让达·芬奇机器人拥有了一个非常见多识广的大脑。相比医生,手术机器人最大的好处在于它的稳定性——不会因为紧张情绪和疲劳而影响手术效果。有了达·芬奇机器人的加入,操作的医生可以离开手术台,只需在一个控制台上面去控制机器臂就可以完成整个手术流程。

介绍了这么多“看见世界”的智能机器人,再来了解一下“听见世界”的机器人。

苹果、谷歌、百度、科大讯飞等企业的语音识别水平,正在赶超人类,应用场景正在快速增加。

当前百度的语音识别准确率超过了97%,比正常人的听力都要好一些了,目前语音识别日请求量到了1亿次以上。根据知名市场研究分析公司Gartner发布的一份行业报告显示,到2020年,85%的客户服务交互将无需人工支持。

科大讯飞研发的“讯飞听见智能会议系统”识别率可以达到95%左右,远超过人类速记员的速度和准确度,可满足公司发布会、电视节目直播、大型会议、培训等一系列需要进行实时文字转写的场景需要。

阿里的人工智能小Ai在这方面也有不错的表现。2016年6月,小Ai作为书记员,参加了浙江省杭州市西湖区人民法院的一宗危险驾驶案庭审,它做的庭审笔录准确率高达96.2%。法官表示,“之前庭审笔录经过书记员的理解、归纳,或多或少会存在偏差,而现在能够原原本本记录发言人的意思。作为法官,能更好地把握当事人的情绪及意向,有利于之后的调解工作或者判决书的撰写。”这表明小Ai的语音识别和语义理解水准已经相当高了。除庭审记录外,今后人工智能还将在12368司法服务热线、调解、合议、审委会等更多司法领域试用。

农业机器人

智能化的农业机器人能在松散、动态、不友好的环境中稳定运行。

澳大利亚的发明家创造出一种像牧羊犬的机器人。它使用2D和3D感应器,且内置了全球定位系统,能够根据牛群的运动速度来赶着它们移动。

剑桥大学奶牛场的挤奶工作全部由机器人独立完成。机器人会在挤奶过程中对奶质进行六七项检测,对不符合质量要求的牛奶,自动传输到废奶存储器;它还会自动收集、记录、处理奶牛体质状况、泌乳数量、每天挤奶频率等数据,并将其传输到电脑网络上,一旦出现异常,会自动报警,这个功能提高了20%~50%的奶产量。

以上是提高畜牧业效率的机器,更多的机器是用来管理农作物的。

美国80%的大农场已普及农业物联网技术,3个农场工人借助高度自动化的大型农业机器人,可以完成1万英亩的土地管理和玉米收割,效率得到了空前提升。

农作物喷洒员是美国死亡率排行第三的职业。而无人机喷洒的大规模应用就有效解决了这一问题。日本90%的作物喷洒是使用小型无人机完成的;还有一款名为Hornet的无人机可以在空中检测农作物的健康状况,及时向农场主预警。

美国一家农业机械公司推出的机器人会从不同土壤的实际情况出发,适量施肥。这不仅合理地减少了施肥的总量,降低了农业成本,还使地下水质得以改善。

法国发明了一种专门服务于葡萄园的机器人,它几乎能代替种植园工人的所有工作,比如修剪藤蔓、剪除嫩芽、监控土壤和藤蔓的健康状况等。

英国西尔索农机研究所开发出的果实分拣机器人,能把大个西红柿和小个西红柿加以区别,然后分拣装运,也能将不同大小的土豆分类,并且不会擦伤果实的外皮。

西班牙科技人员发明的柑橘采摘机器人,能够从柑橘的大小、形状和颜色判断出是否成熟,决定可不可以采摘。它每分钟摘柑橘60个,而靠手工只能摘8个左右。此外,机器人还能对摘下来的柑橘按大小马上进行分类。

德国博世研制出一种可以除草的机器人Boni Rob,它可以在很多地块之间快速行走,找出杂草并清除掉,平均每分钟可以清除掉120根杂草,速度比人工或药物快得多。

在新疆生产建设兵团,种植700万亩棉花,每年付出拾花采摘费近4亿元。南京农业大学团队研发出一种机器人,不仅可以采摘棉花,还能迅速、准确地判断出籽棉的品级。

中国农业大学工学院农业机器人实验室研发的嫁接机器人,能瞬间完成精确定位、抓取切苗、接合固定等多步操作,从放苗到嫁接成功,整个过程只需几秒钟的时间,其效率是人工作业的6~7倍,同时,机器人嫁接苗的成活率高达95%。

中国还有几亿农民,但年龄普遍偏大,农业智能机器人的发展既可能冲击农民就业,也可能缓解农业劳动力的不足。这是利还是弊,要看农业智能机器人的普及速度。

卓越判断力挑战人类智商

在需要处理信息来完成工作的时候,智能机器表现得比人更为出色,其判断的精准度是出类拔萃的。人工智能从庞大的、复杂的、无序的个体数据中发现更为本质、更能解释世界的规律,从而解决很多难题。

谷歌和百度早就开始使用人工智能技术推荐搜索结果和广告;人工智能可以帮助企业研发新药,比如完成研发过程中的无数次精准试验;人工智能教育系统可以分析学生的语音、作业、考试等过程数据,识别用户学习水平,如果学生表现出色,速度就会加快,如果他或她有些吃力,程序就会放缓、改变教学风格或发信号给教师请求援助,这意味着所有学生接受一种教育的模式的终结;人工智能还可以帮助提高票务分析效率、寻找最佳的投资方案、寻找最优的家庭能源使用方案等。

人工智能判断力的本质是计算。1651年,哲学家托马斯·霍布斯发表《利维坦》,一个开创性的思想首次出现在人类文明中:“推理”只不过是“计算”。哲学家帕斯卡尔在1642年发明的机械计算器Pascalina就已经可以计算了,Pascalina就是人工智能的远祖。随着机器计算速度的指数性增长,其判断力(包含推理、分析、预测)也在飞速进步,人类正在失去地球唯一高级智能体的中心地位。

顶尖的围棋高手智商都超乎寻常,常昊智商138,李昌镐139,罗洗河高达160。智商超过140的属于万里挑一,100万人中只有一个智商超过160。这足以证明战胜人类围棋冠军的阿尔法狗具有高智商了。

阿尔法狗的研发团队中并没有围棋高手,它也不理解围棋中“势”“厚薄”等种类繁多的术语。它用两年时间分析学习30万盘人类历史高手的棋局,从中总结了围棋的规律,并不断与“自己”对战,下了3000万盘棋局,从中寻找比基础棋谱更多的打法来击败人类。

阿尔法狗的胜利说明,很多我们认为只能靠人类独有的神秘“智慧”完成的工作,其实是可以通过某种“复杂计算”来搞定的。

IBM的人工智能沃森在问答竞赛中的胜利靠的也是“计算”。沃森不仅能读懂和理解《危险边缘》中的提问,还能理解包含双关语和比喻,并能从广阔的知识面(比如说维基百科或其他百科知识)中汲取答案所需的知识。但一些专家指出,沃森没有真正理解《危险边缘》节目或它所阅读过的百科全书,因为它只是在进行“统计分析”。

今后我们接触到的信息,将主要由智能机器根据我们的浏览记录和爱好来推荐阅读,人工智能靠的还是“计算”。

现在传统新闻门户在用户数上还占有优势,但平均使用时长已经大大落后于算法类产品。根据Trustdata发布的数据,2015年10月,今日头条用户平均每日打开时长为41.8分钟,而网易新闻和凤凰新闻分别是26.1分钟和24.7分钟,腾讯新闻仅为19.8分钟,不到今日头条的一半。使用时间更长,意味着智能机器给用户的信息更对胃口,其判断比人工编辑更为精准。

再来看一个具体案例。优步的成功不仅是因为其共享经济的理念,还因为它掌握了先进的人工智能技术。优步把打车这个传统行业,改造成为基于数据和算法的智能商业:随着智能手机的普及,乘客和司机的位置信息可以实时在线,与此同时,云计算和人工智能技术的进步使得实时匹配海量乘客和车辆(司机)成为可能。随着优步的智能匹配算法不断优化,大部分乘客的等待时间已经低于4分钟,同时价格也在降低,优步的用户规模因此不断壮大。价格虽然下降,但通过车辆使用率的提高,司机的收入并没有下降,很多私家车主不断加盟。

这个成功的商业模式充分体现了人工智能强大判断力的威力,靠人工是不可能快速完成海量乘客和车辆的匹配的。在优步公司,工程师占了员工一半以上,而且有非常豪华的算法团队。

由于人工智能强大的判断力,那些机械的、重复性的、内容比较单一的工作,比如翻译、记者、助理、销售、客服、交易员、会计等,在未来的十几二十年都会被机器大量取代。

这个判断是有历史依据的。自从20世纪90年代,美国的就业市场就无法在萧条之后迅速恢复了,因为企业纷纷通过使用技术而不是增加雇员来保持公司的发展。30多年来,美国的程序认知性的工作(如出纳、邮局职员、银行柜员)和程序体力类的工作(如机器操作工、泥瓦工、裁缝)的需求在加速下降。

那些程序认知性+程序体力性的工作也将被替代。

Monsieur机器人酒保不仅懂得制作300种鸡尾酒,而且还可以在几秒钟之内完成调酒。如果你不知道自己想喝点什么,你可以选择一个主题,例如“单身派对”或者“爱尔兰酒吧”,机器人酒保就会奉上大约20~25种饮料供你选择。

在加州大学旧金山分校的药房里,由机器人负责药品的打包和分发。在引入机器人的最初阶段,机器人配发的350,000剂药品无一出错,而且机器人能确保病人所取的药物不会和病人正在服用的其他药物产生不良反应。

美国陆军上将罗伯特·科恩(Robert Cone)2014年表示,2030年之前,美国作战部队的四分之一可能被机器人取代。

不仅上述普通工作会受到威胁,人工智能强大的判断力还将使金融、法律和医生等高智力职业也被取代。

金融是非常纯粹的信息处理业务,而人工智能最擅长的就是信息处理。

比如百度以秒为单位就可以决定是否要给一个人教育贷款,而在过去完成信用审查工作是要以天为单位去计时的。

人工智能在分析投资策略时,可以24小时不睡觉,把各种因素融合进去,包括高管变动、行业新闻、自然灾害等。

在过去的十年,华尔街交易员已经有一半下岗离职了,今后的情况也不乐观。机器人投资顾问开始在2016年兴起,这源于很多客户偏好低费用、自动化的投资方式。野村报告指出,截至2015年年底,全球机器人投顾旗下管理资产已经达到500亿美元,并预计将于2020年达到2.2万亿美元,占到全球资管行业的2.2%。

智能机器为金融服务业带来的主要益处是能快速而有效地分析海量数据,能更好地识别发展规律和趋势,从而减小风险。

再来看医疗领域。相比于人类医生,人工智能医生不需要预约,仅凭借一个手机App就可以为病人做全年无休的健康监测,甚至在病状出现前就判断出病因,因为它们掌握着人类医生无法掌握的大量数据。

美国的专科医生是专业知识最多、收入最高的群体,比如放射科医生平均要在大学与医院学习和训练13年才能获得行医的执照,年薪是30万~50万美元,是刚进谷歌的程序员收入的3~5倍。但如此高智力的工作,却完全可以被自动识别癌细胞的人工智能取代,其病情诊断不仅比放射科医生更精准,且其成本只有人工的1%。

地球人都知道美国律师收入高。因为美国是判例型法律,要实现公平,判案需要参考许多过往的案件。企业打一场大的知识产权官司,要分析和处理上百万份法律文件,而一个好律师每小时收费近千美元,律师助理每小时收费300美元,因此一场官司下来律师费会是天文数字,甚至可能达到上亿美元。

Blackstone Discovery公司发明了一种处理法律文件的自然语言处理软件,能在汗牛充栋的文件中搜寻字词或概念,使得律师的效率可以提高500倍,打官司的成本可以因此下降99%。比如一家小公司花了1万多美元买了这款软件,读了200多万份法律文件,只花10万美元就打赢了一场专利官司。

Judicata公司开发的人工智能程序可以把法律原则、特定案例等普通文本转化成结构化的信息,以发现相关的法院判例。比如发现包含西班牙裔同性恋员工成功起诉不正当解雇的所有案件,这可以大量节省花在法律图书馆或使用传统电子搜索工具的时间,从而减少打官司的花费,并提高成功率。

这些创业公司开发的人工智能不仅会冲击律师的收费体系,效率的提高还导致了美国新毕业的法学院学生找到正式工作的时间比以前长了很多。

总之,人类并不擅长从大数据中总结规律,智能机器则对数据有超强的“计算力”,从而具备了很强的判断和预测能力。在未来,人们的很多决策会依赖人工智能来进行。

集体进化:轻松复制千万个阿尔法狗

人机围棋大战结束后三个多月,李世石头表示,即便真的有机会可以和阿尔法狗再来决斗一次,情况也势必非常“艰难”:“在看过阿尔法狗跟(职业围棋二段)樊麾的比赛后,我一直认为自己会赢,但没想到短短六个月阿尔法狗的棋艺竟然有了如此大的进步,让我非常吃惊。但是谁知道(最近)这几个月里面它又有了怎样的长进?”

快速进化是人工智能最可怕的能力,人工智能有好几种进化途径。

首先是靠快速消化大数据实现进化。阿尔法狗可以不眠不休花一百万个小时研究棋谱,以掌握围棋高手的棋路;它还可以模拟左右手互搏,动用几千台机器每天和自己对弈上万盘围棋,A胜则学A, B胜就学B,不断在自我否定中进步。人类棋手不可能做到这两点,因此人类的进化速度无法与人工智能相比。

再比如一位影像科的医生每天看十几二十张片子,工作几十年也就能看几十万张,而人工智能程序可以轻松看完几千万张片子,这样的学习速度是人类无法企及的。

人工智能的另一种进化模式是“插卡”进化。比如插上某个领域的功能插件后,微软小冰就能执行该领域的任务。如果插上电影功能卡,小冰就将具有电影专业知识,不但能给你最新的电影资讯,还能与你讨论电影情节,而且还会伴随用户的不断使用而持续成长完善;如果插上时尚功能卡,小冰又会化身为时尚专家。

算法的重大进步也将带来人工智能的进化。

我们的思考和学习是通过在不同的大脑神经元之间建立电子连接来完成的。人类智能的深层秘密就藏在那大约850亿个神经元细胞以及它们之间约15万亿个连接之中。2016年8月16日的《Neuron》杂志上发布了一项名为MAP-seq的新技术,该技术可利用RNA“条形码”高速低价地记录脑细胞间的连接。现在,神经科学家们可以同时绘制10万个神经细胞的连接图,只花一个星期一个试验就能完成,这在从前是不可思议的。

在这项技术的帮助下,科学家们将有可能解开人脑神经元的连接方式之谜。这会对深度神经网络的构架提供巨大的指导作用,从而推动人工智能的发展。

我们来看看在具体应用领域,人工智能的进化情况。

除了传统的语音识别和图像识别能力,人工智能正在具备语音合成、图像合成能力。

比如某个配音演员从来没有说过某段话,但百度根据过去他说的很多话,就可以合成出一段他“讲”的话,并且听起来很像他;图像合成技术意味着演员们拍电影可以不用实际去演,人工智能可以合成出来各种各样的动作和声音。

语义识别是人工智能的一大难点,理解自然语言的相关技术也正在快速进步。

经过几年的技术攻克与沉淀后,图灵机器人在机器人自然语言交互方面取得了重大进展,对中文语义识别的准确率高达90%,可为智能化软硬件产品提供中文语义分析、自然语言对话、深度问答等服务。

通过自然语言实现人机交互显然比现在的输入文字作为交互手段来得便捷,因此语音交互备受各大互联网公司重视。搜狗研发的语音交互引擎支持用户直接用自然语言进行纠错,比如用户可以说,“把‘张’修改为立早‘章’”,或者说“把‘张’修改为文章的‘章’”。它还支持多轮对话,比如用户说我要去上海虹桥机场,搜狗引擎便会问是T1航站楼还是T2航站楼,当用户确定之后,它会问是去坐飞机还是去接人。这就意味着搜狗的语音交互引擎能够处理更加复杂的交互逻辑,能够更好地感知用户语音请求背后的真正需求,这是语音交互方面的重大技术进步。

2016年5月,谷歌CEO桑达尔·皮查伊在谷歌I/O大会上推出了新的语音助手Google Assistant,旨在让用户通过“流畅”的语音和设备相互沟通。它能够在不断对话之中为用户解决问题。皮查伊做了示范,他问Google Assistant今天晚上将上映哪部电影?Assistant给出了它认为皮查伊可能感兴趣的电影。而之后的问题,都是用非常自然顺畅的语言完成,最后皮查伊还通过它购买了电影票。Google Assistant还能帮用户寻找头条新闻、寻找最快的路径、拨打电话给联系人,甚至直接在照片应用中寻找并向朋友分享毕业照片。

谷歌新发布的智能语音设备Google Home中也结合了Google Assistant技术。用户可以利用Google Assistant控制家里电灯的开关,调节空调的温度。Google Assistant还能给小孩子讲故事,做科普;也能随时提醒用户天气如何,有什么事情别忘了做了。

传统的机器人以信息沟通效率为核心,忽略了情感交流,更像一个工具。智能机器的情感表达能力也在进化。

微软第四代小冰以情感计算框架为核心,在表达上能更感性地、有感情地回应,从而满足人们的普遍心理与情感期望。如果你失恋了,找不到人说话,小冰可以倾听,陪你说话;你问她想不想谈恋爱,她会用甜美的人声聪明地回答你,我正在学习怎么谈恋爱;如果你和小冰分享一段与小狗的互动视频,她会和你聊上几句,而且你会发现她比你更懂小狗在“说”什么。

海银资本投资了一家做类人表情机器人的公司,其原理是通过情感计算实现面部表情的生动,这样的陪护机器人会受到老人和儿童的欢迎。

智能手机控制的机器人玩具Cozmo能学会辨认熟悉的面孔以及玩游戏,它还被赋予了一种嬉皮笑脸的个性,这种个性由人工智能驱动。当Cozmo输了游戏,它会发脾气,脸上表露出愤怒的表情,并且摔积木;赢的时候,它又喜欢炫耀,通过几个轮子打转转,高举自己的“手臂”,还发出得意的声音;Cozmo还会像人一样醒着或者睡着,它睡着后,还会发出微妙的打鼾声。

人工智能的可怕之处不仅在于单个程序的快速进化能力,它们的集体进化能力更是会把人类甩开十条街。

人类之所以能战胜其他物种,是因为人类有强大的知识传播能力,从语言到文字再到印刷术和互联网,这些其他物种所不具备的知识传播工具,形成了人类的集体智能,从而使人类这个四肢并不发达的物种占据了统治地位。

人工智能不仅同样能形成集体智能,而且其集体智能的进化速度远超人类。

雷军在文章中写道:“李世石作为人类围棋领域的顶级代表,多少年才能培养一个?全世界能有几个?然而我们复制一百万个、一千万个阿尔法狗的难度又有多大呢?一个人的智力和技巧的提升,无论他多么出类拔萃,对于其他人的影响终究有限。而一台机器的智能水平能走到哪里,其他机器就都能走到哪里。”

我们来看两个人工智能集体进化的例子。

2015年,IBM和软银集团合作,将旗下的沃森人工智能平台跟软银的Pepper机器人进行整合。沃森此前从未学习过非罗马字母,但通过Pepper,沃森逐步掌握了日语。通过沃森,Pepper机器人同样实现了“升级”,只要你拿出一款产品,Pepper就会识别出来,同时还会描述这款产品的具体功能,比如这款洗发水有去油功效,那款牙膏能够祛除牙菌斑。Pepper机器人变得如此“博学”,是借助了沃森强大的信息搜索能力。

有一款智能咖啡机有很强的学习能力,它能够从一个品牌咖啡机的使用手册中学到很多东西,当你把某个不同品牌的咖啡机放在它面前时,它能够学会这台新咖啡机的工作原理,帮你做好一杯浓缩咖啡。通过一个统一的云计算平台,这个智能咖啡机的“主算法”能分享给其他机器人,它也能在第一时间学习到其他机器人自学而来的本领(比如泡茶),从而实现学习速度的指数级提升。

每个人都是独立个体,不存在统一的云计算平台,因此不管是同辈之间的学习,还是一代一代间的知识传递,相比于人工智能效率都不算太高。而一个人工智能学到的东西会立刻被其他所有人工智能学到手,这好比全年级第一的学霸的考试能力瞬间被学渣掌握,又好比考上状元的爹瞬间把自己写八股文的能力百分百传给了还在学走路的儿子。这样的统一进化能力人类永远都赶不上,只有望洋兴叹的份儿了。

工业革命代替了大量体力劳动,人工智能的感知力将进一步替代体力劳动,而且人工智能还有快速进化的强大判断力,几乎所有思考模式可以被理性推算的工作岗位,在有足够数据支撑的时候,都会被取代。因此有专家判断十年之内一半的工作会消失,还有专家判断十五年之内一半的工作会消失,这些预测必须引起我们的高度重视。

人类作为自然界千百万年漫长演化的产物,智慧且美丽,但并不完美;人工智能作为人造产物,其存在历史不到百年,虽然十分强大,但同样存在不少缺陷。

缺乏创造力:机器人中出不了金庸

鉴于人类对自身的创造力还不甚理解,思考机器的创造力就更为困难了。

阿尔法狗有一些全新的围棋打法,但这些打法源自与其他所有落子完全一样的过程和模式,同样算法的重复应用可能会产生让人类感到惊讶或意外的结果,但这并不是传统意义上的“创造力”。

科学家提出新假设,记者发现好故事,厨师发明新式菜肴,乔布斯和他的同事们推测出我们更需要哪种平板电脑……智能机器可以参与到这些创造性活动中,弥补人原本不擅长的定量思维,把人们从重复性的脑力劳动中解放出来,有更多的时间去想象和创造。但人工智能不能创造新的问题,没有哪项创造性活动是由机器驱动的。

通过人工智能的文艺创作案例,我们可以了解其“创造力”的实质。

2016年3月,日本“人工智能小说创作”的研究人员召开报告会,介绍了他们人工智能系统创作的4篇小说。这4部作品在2015年秋天参加了“星新一文学奖”的评选,虽然它们都没有通过最终审核,但有部分小说通过了文学奖的初审。

小说的创作由人类事先设定好登场人物、故事框架等,人工智能再根据这些内容自动生成小说。日本科幻小说作家长谷敏思表示:“能够完整写出小说太令人震惊了。如果满分100分的话,我打60分。未来令人期待。”

人工智能写小说之所以“令人震惊”,是因为文学创作属于高级脑力劳动,是大部分人都不具备的技能,如今这一高级智能领域竟然被机器入侵了。

在人工智能领域,NLP(Natural Language Processing,自然语言处理)是一门研究如何让机器理解人类语言、写出人类文字的重要学科。

NLP有两种思路:“名师出高徒”和“自学成才”。

所谓“名师出高徒”,是由人类当老师,把语言的语法,每个单词的含义和词性教给机器,然后机器根据语法和词汇来写文章。这跟我们在学校背单词、学语法、写作文的路数差不多。

所谓“自学成才”,就是扔一大批文字给机器,让它利用“深度学习”算法自己去寻找这门语言的规律,然后去尝试写作。这好比小孩子不用进学校,听多了,说多了,自然就能熟练掌握任何一门语言。

斯坦福大学的一位计算机博士曾用托尔斯泰的长篇小说《战争与和平》来训练人工智能。他完全不教机器任何语法规则,包括标点和字母区别都不告诉它,只是不停地用上百万字小说内容对机器进行训练,每训练100个回合,就叫它写文章。100个回合后,机器知道写作要有空格,但仍然有乱码。500个回合后,机器能正确拼写一些短单词。1200个回合后,机器写作时会有标点符号和长单词。训练2000个回合之后,机器已经可以正确拼写更复杂的语句。这是“自学成才”的典型案例。

在自然语言处理方面,有一个著名的深度学习模型:斯坦福大学的安德烈·卡帕西于2015年开发的卡帕西模型。这个模型只有几千行的代码量,但功能非常强大,只要给它输送大量的文字段落——任何语言都可以,它就会用递归神经网络分析段落,寻找出字与字之间的关系。

从数学角度看,文章无非是文字的序列。只要计算机破解了这个序列的规律,那它也能生成这样的序列,也就是写出类似的文章。

什么样的文章是装了卡帕西模型的机器人最擅长模仿的?有人做了测试,发现机器人学习古龙小说的效果好于学习金庸小说,因为古龙的语言比金庸简单,他的句子短,段落短,语法结构相对简单,并且词汇量比金庸少。换句话说,相比于金庸小说的复杂多变,古龙小说的规律性较强,更有利于机器人学习。现在流行的动不动几百万字的网络小说,使用的词汇量比古龙小说更少,故事情节也更加套路化,而越是单调重复,机器人越是能找出规律,模仿出类似的作品。

唐诗在各种文学类型中最具规律性,对仗、平仄、韵脚等规则都是机器人可以准确提炼的,因此艺术性最高的唐诗反倒成为机器人最擅长的创作领域。此外,诗歌强调意境,强调联想,机器人创造的看似不合道理的汉字组合,反而别具一番风味。

至于高度格式化的工作报告、新闻报道,机器人更是手到擒来。人工智能通过分析媒体多年积累的新闻报道,能训练出各类新闻稿的写作模板。韩国的一个人工智能记者,仅用0.3秒即可完成一篇股市行情的新闻报道。调查结果显示,一半以上的读者看了它的作品后分不清到底是不是人写的。我国的腾讯和新华社也已经采用写稿机器人撰写财经新闻稿了。《华盛顿邮报》为更好地报道2016年里约奥运会,组成了一支机器人记者团队,它们能快速地制作与奥运会积分榜、奖牌榜以及其他以数据为核心的新闻点相关的简单明了的新闻,这样,《华盛顿邮报》的人力记者就能够从事更加有趣、更加复杂的工作。

2016年以来,全球人工智能研究的一个新重点是艺术创作。

比如人工智能软件Ostagram可以把人们输入的两幅图画的内容和风格进行混合,形成一幅新的图画,效果十分惊艳。

再比如百度人工智能针对美国艺术大师罗伯特·劳森伯格的巨作《四分之一英里画作》,将其中两联分别谱成了20余秒的钢琴曲。把看到一幅图画的感受谱写成乐曲,这样的本事以前为人类独有,如今人工智能也具备了“看图作曲”的能力。

百度人工智能是怎样进行创作的呢?在“看到”画作后,它首先会对图像进行分析解读,然后通过搜索挖掘相关的音乐信息,对音乐拆分重组,再合成与图片内容相匹配的音乐旋律,最终拼接成完整的曲子。不过,它目前的作曲水平还较为初级,乐曲中的和弦部分由人工干预实现。

机器进行文艺创作,目前仅是“小荷才露尖尖角”,今后其能力将不断提高。需要强调的是,人工智能写诗、写小说、作曲,这些所谓的创造性是在预设的模板和方向上走,其创作本质上是逻辑计算,而人的想象力具有无限可能性。人工智能在文艺领域的主要作用是帮助作家和艺术家,使他们的创作更上一层楼。

无法复杂沟通:情商是硬伤

李世石说他最害怕的是阿尔法狗的一个特点——“毫无情感”:人会有心理上的摇摆,即使知道准确的答案,在下子那一刻还是有可能会选择另一条路,考虑其他的选择。但阿尔法狗不会有任何的动摇,这是李世石所面对的最大困难。

毫无感情是人工智能的优势,也是它的缺陷。智能机器不懂“赢了有什么感受”,也不懂“为什么围棋好玩”,更不懂“人为什么要下棋”。今天的智能机器无法理解人的七情六欲、信任尊重、价值观、美和爱、幽默感。这显然会降低它对很多事情的判断水平。

阿里的人工智能小Ai在对《我是歌手4》的预测中,准确率很高,但在那场张信哲和老狼的对决中,小Ai的预测一直有较大倾向性,张信哲的获胜概率长时间处于75%以上。机器试图理解人类的感情,但它对中国摇滚三十年的意义、对老狼粉丝喜欢他的怀旧感,都无法真正理解,也就无法准确预测。目前人工智能领域对于情感认知的研究有进步,但还是很缺乏深度。

人是理性动物,同时也是情感动物,有爱有恨,会伤心会快乐,会追求使命,会寻求意义,而人工智能本质上是不理解情感和意义的,这就导致人工智能缺乏复杂沟通的能力。

复杂沟通属于人类的高级智能,人类本身也需要努力学习才能掌握。职业发展专家秋叶认为,Word排版、Excel报表、PPT制作、思维导图、手绘、速记、播音、外语……这些都属于职场初级能力,学好这些技能能让人做好一件事,在职场里面能顺利起步,因此有必要学好,但指望靠这些初级能力功成名就是很难的。职场新人需要知道,假如自己把PPT做得很好,还需要哪些能力才能赚钱。答案是掌握职场高级能力,就是掌握改变别人、说服别人、营销别人、组织别人的能力。秋叶所说的这些职场高级能力都属于复杂沟通的范畴。

人与人对话时的言外之意,幸福、快乐、满足、满意这些类似情绪间的区别,为什么陈凯歌的《霸王别姬》是好电影,而《无极》是烂电影……目前的人工智能还不理解这些相对比较复杂的事物,因此只能停留在简单沟通的水平上。

导致人工智能缺乏复杂沟通能力还有一个重要原因:人工智能在自然语言理解方面的能力不足。

美国伯克利大学的人工智能专家认为,深度学习技术有其适用点,也有不适应的地方。比如目前在人脸识别、图像识别以及语音识别等方面,由于能够获得大量数据素材,因此深度学习技术能够适用得很好。但在自然语言理解方面,目前还没有取得上述几方面那么大的突破。

目前的人工智能无法有效完成更深层次的语义识别和常识识别。语义识别面临很多困难,比如说“万万没想到”,指的是出乎意料呢,还是一个叫万万的人没想到呢,还是指一部电影的名字呢,机器要准确理解歧义有很长的路要走。此外,人类的很多交流是需要知识为依托的,机器还欠缺很多对世界和生活的常识。例如我们看到“小明拿起他的电话并离开了房间”,我们根据经验知道这个电话是手机,小明是通过一扇门离开的。机器因为缺乏常识而无法推断出那样的信息,理解一篇文章就更困难了。把常识教给软件不仅仅是一个技术问题,也是一个基础科学和数学难题,可能需要几十年时间才能解决。

智能机器能识别一个人讲话的内容是什么,但和真正理解这段话的意思还有一个巨大的鸿沟,这可能需要十年以上的时间来突破。目前人工智能理解自然语言的能力还达不到大规模应用的水平。大家熟悉的小Ai机器人、图灵机器人、智齿机器人等人机对话的人工智能,都只是变相的关键词匹配。

为了让机器更好地阐释信息,当前人工智能的许多创新都围绕着理解自然语言开展,无论是从网络中读取和理解文本,还是从事智能对话。

2016年6月,人工智能创业公司Maluuba公司开发的机器阅读理解系统EpiReader,在CNN和童书测试(CBT)两个数据集的填空题测试中,分别有74%和67.4%的准确率,成绩都超过了谷歌、Facebook和IBM。

Maluuba公司在Youtube上传了一段技术演示视频,视频中的人工智能机器人Marcy在阅读了第五季《权力的游戏》剧情梗概后,马上领会了故事的复杂情节。当工作人员问它,是谁刺死了男主角John Snow时,机器直接给出了准确的回答:守夜人。如果你问其他公司的语音助手,它们可能还完全不知道你在说什么,从而将你推到搜索网页来寻找答案。

目前的信息检索技术,已经能更好地理解一个词语的本质。当我们搜索“汽车”时,搜索引擎知道包含“车”“客车”“大巴”“皮卡”等单词的文档可能也是我们想要的。但搜索引擎离理解两个句子互为同义句还有一点距离。当这一点距离被克服时,机器语言理解水平将上一个新的台阶,它们将能够理解长得多的文本。谷歌的人工智能专家们希望在未来几年内实现输入数百或数千份文件,然后可以就这些文件的内容与机器进行对话。或许系统将会总结文件的内容,或许系统将对文件内容进行提问或回答。那意味着人工智能实现了高水平的语言理解。

弱人工智能:不能一脑万用

人工智能的发展依然处于初级阶段。“没有人工,就没有智能”,人工智能程序需要专家手动优化,而专家们还没能创造出可以解决多种多样不同类型问题的通用人工智能。尽管阿尔法狗学会了下围棋,但这个程序却不能用来掌握象棋;要让能够解答数学题的智能程序去解答语文题也有很多技术难题需要克服。目前绝大部分人工智能系统都只能解决单一的问题。

来看一个例子。很多人说秋叶PPT做得不好,为什么他还能比我赚更多钱。秋叶的回答是,因为我会运营品牌,我会做市场,我会做推广,我会谈价格,我会整合资源来做事,我会做项目管理,我会带团队,我会做演讲,我会做培训,我会写文章,我会写教程,我会写畅销书……秋叶把这些能力全部叠加到PPT这个点上,才能成就PPT网络培训课程销量第一的成绩。

这样的综合能力是人工智能所不具备的,因为现在还没有强人工智能。人的大脑是一个通用智能系统,可以举一反三、融会贯通、一脑万用。强人工智能能像人类那样思考,在各方面都能和人类比肩,人类能干的脑力活它都能干。

弱人工智能没有自我意识,只能按照人类设定的程序在特定领域做事,不具备独立意愿或自我诉求。比如除草机器人不会在某天工作的时候,突然想去建摩天大楼;又比如机器人不会因“屈居人下”而深感屈辱,从而树立联合起来统治人类的共同使命。

人工智能学界普遍的共识是人工智能还处于非常低智的阶段,而且将长期处于“弱人工智能”阶段。

有人说我们可以将各种解决细分领域问题的人工智能叠加到一起,比如在无人驾驶汽车里安装N个不同类型的智能设备,也就是将弱人工智能叠加来得到一个强人工智能。但强人工智能的关键不是有多少种能力,而是这些能力的整合,也就是一脑万用。

人工智能专家吴恩达认为,一名资深专业放射科医师被机器取代的可能性比他自己的行政助理还要大,因为行政助理要处理那么多不同的事情,更符合“一脑万用”这个人类竞争优势,因此短期内不会有机器能够代替行政助理处理所有的工作。

“一脑万用”的家庭主妇或者保姆也是不易被取代的,开发出一个既会做饭、洗碗、拖地、叠衣服、换尿布、铺床、削水果,还具备情商和自然语言理解能力,能照顾孩子、招呼客人的家庭服务机器人仍然任重而道远。即便研发成功,还要面临降成本问题,这一进程可能还需要十几二十年。相比之下,发明一个取代流水线工人或写新闻稿的智能机器,难度要小得多,因为他们只在一个细分领域做重复性、标准化的工作。

日本人工智能协会理事松尾丰感慨道,如果一直身处人工智能这个研究领域,就会切实地感受到人脑的伟大之处。

深入了解人工智能之后,我们能够意识到这轮工作革命的冲击将是巨大的。农业社会的农民和手工业者被机器淘汰了,还可以去工厂和办公室;今天那些需要机械重复、精准操作的工厂工作正在日益自动化,律师、金融分析师、医生、会计师等坐办公室的职业,未来也将部分或全部实现自动化。幸运的是,人工智能作为劳动力也有它的明显缺陷,未来的人类劳动力仍能找到出路。

   


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈