数字魔术师的艺术

时间：2022-08-24 百科知识版权反馈

【摘要】：当他把他那部分贡献给大数据时，他要明确与此保持距离。他看到他的任务在于，能够借助算法分析那些沉没的数据，从而确保替未来做出知情的决定。在大数据时代，巨大的数据量是让机器长出双腿的动力，借用的意义非凡。美国企业利用欧洲的懒惰，吸引了大量专业人员，并延揽欧洲大数据创业企业前往硅谷。不值一提的是联邦国防军必须借重的侦察系统，暂时不会被一种现代化系统所取代。

倘若一个数学家想表现不友好，他可以强调，在海量数据存储的数据库章节中仅仅涉及数据沉没。当他把他那部分贡献给大数据时，他要明确与此保持距离。他看到他的任务在于，能够借助算法分析那些沉没的数据，从而确保替未来做出知情的决定。对于像公安局这类国家机构，此项决定可能意味着，如果算法“表示”怀疑，那么就要引入调查程序对付嫌疑犯。

一个股票交易商在股价上涨之前，决定购买一种确定的生物技术股票，因为算法可从历史的股票价格走势中重构私密的信息，并向他保证：这一只股票价格将会上涨。数学家的任务是，开发算法，把数据分析转变成一种前瞻性的行动机器，而不是只在统计上利用数据，展示充当管理信息系统的彩色图表的评估结果，他们应当帮助用户做出更好的决定。不，还要牵扯到更多：人类的决定现在自然应当由一台机器做出。智能机器应该接受人的行为。大数据真正的目标是自动化，从原始数据中自动地萃取信息与知识，推导信息的产出——推理（Inferenz）。那些隐蔽地包含在现有数据量中的信息和知识，人类第一眼无法识别，而且涉及更多的内容：智能机器的自治（die Autonomieintell igenter Maschinen）。因为一台机器首先一次性确定，什么是基于一种可靠的、统计上有说服力的数据形式的优化决定，不仅小步迈向这种含有相应调整决定的自动执行和监控，而且不会产生预期的影响。

在确定的任务中对人类具有压倒性优势的智能机器已经存在很久，且运行可靠，在技术发展的历史上为我们所熟知。在20世纪就有几波人工智能的浪潮。1997年，IBM公司的深蓝（Deep Blue）超级计算机下出了天才般的几招，在只下出九步的最短棋局中成功地把国际象棋特级大师加里·卡斯帕罗夫将死。曾经在2000年战胜过加里·卡斯帕罗夫的俄罗斯国际象棋特级大师克拉姆尼克，也没有好到哪里去，2006年11月23日，在与德国国际象棋计算机深弗里茨（Deep Fritz）的较量中，后者以4∶2赢得了比赛。

国际象棋只是一个拥有64个方格的棋盘和32枚棋子的有限问题。其计算能力能够极快地覆盖上千次的棋局，模拟未来上百万步的棋，今天在国际象棋方面计算机可能战无不胜。西洋双陆棋的构成难度更大，它不同于国际象棋，是一种含有偶然成分的游戏，因为在玩西洋双陆棋时要掷骰子。尽管复杂性提高，杰拉尔德·特索罗（Tesauro）发明的电子西洋双陆棋棋手在与人类的对战中也未曾尝过败绩。那些计算机通过简单的计算就可更快获得结论：所有地方，都是人类经验受到挑战和终将发生变革的场所。机器现在对我们拥有绝对的优势。

在大数据时代，巨大的数据量是让机器长出双腿的动力，借用的意义非凡。然而首先表示尊敬：其他领域的科学家，尤其是物理学家和统计学家，要像数学家那样为数据分析和数据融合做出贡献，没有感觉受到歧视，我们从现在开始利用数据科学家（Data Scientist），科学的程序员这个概念。作为定量分析家（Quantitative Analyst，简称Quant），这类数据科学家运用数值方法工作，在金融领域早已众所周知。然而数据融合的工具和方法仍然相同，完全不受限于在何种领域应用。在工具箱中可以找到局部的差分公式、贝氏统计、随机漫步、蒙特卡洛方法（统计模拟法）或者马尔可夫决策过程（Markov Decision Process），所有的方法都是数学的分支领域。

在美国，人们这段时间认识到，一种不断增长的知识缺口已经开启，具有深度分析专业知识（deep analytical know how）的人才的缺口迅速扩大，尤其是统计和机器学习方面的专家。机器学习，这展示了人工智能的局部领域，像优化那样指的是相同的东西。美国企业利用欧洲的懒惰，吸引了大量专业人员，并延揽欧洲大数据创业企业前往硅谷。按照麦肯锡全球研究所的报告，到2018年，对这些专业人员的需求仅美国就占了40%~50%。¹²

而在德国，美国在线销售巨头亚马逊就曾在市场上招聘机器学习方面的专家。2013年12月，美国的Facebook公司宣布组建人工智能团队。¹³仅仅几天之后，谷歌公司就公布并购了美国机器人公司波士顿动力（Boston Dynamics），该公司是战争机器人的供货商，向五角大楼供货的最明显的人工智能的形式。¹⁴这些的确让人感到忧虑。熟悉尖端技术的人都能够识别这种战略：通过更多的知识实现市场的增益，表面上是更好地利用互联网使用者的个人数据，以期与他们共同实现营业额和盈利的显著增长。此外，对谷歌的行为会使大家追问：未来的战争对手是否将不再打着国家的旗号，而是以诸如有限责任公司之名吗？他们是否将不再认得地理的界线，因为他们不是传统意义上的主权国家实体，而是全球性的“超级国家”吗？毕竟，按照使用人数来说，我们现在总是说“Facebook”已经是第三大国家了。

“技术是一件商品，你不必制造它，你可以购买它。”十年前在美国任何一家软件企业几乎可以听到这样的话。此类描述聚焦在我们自新千年伊始就观察到的要点上：一波欧洲从全球假定的廉价之地，例如印度、俄罗斯或者某些东欧国家外包技术的浪潮。技术是大宗商品，美国经理让我们相信，可以放弃自己的开发，购买更好的。而且欧洲人也相信了这点，尤其是德国国家级的机构。如美国军工制造商诺斯洛普·格鲁门公司（Northrop Grumann）制造的飞行中侦察无人机“欧洲鹰”，不久前被视为联邦国防军技术上的面子工程。在2013年春季这个项目刚启动时，军队就按照侏儒怪的原则嘲笑道：“今天我梦想，明天我购买，后天我赢得战争。”¹⁵

可能存在若干不错的理由不进行无人机的采购，但是策略上中断这类规模的项目意味着一个国家的技术悲剧，它让德国退步。不值一提的是联邦国防军必须借重的侦察系统，暂时不会被一种现代化系统所取代。原本最好是自己开发而非购买。随着首次建立EADS⁽¹⁾，欧洲唯一一次成功地组建了一家技术集团，起码还可以用其“空中客车”与美国的波音公司一较高下。

俄罗斯和中国在这些方面的表现就要聪明得多。2007年，中国开发了自己的计算机操作系统麒麟OS，首先用于政府计算机，还有人人网，“中国的Facebook”。早在21世纪头十年我们还在思考，如何非理性和非经济地仿造一款像微软公司的“Windows”那样成熟的计算机操作系统。如今在西方毫无阻拦的监控时代，人们可能会摇摇头，并且推测：中国始终感觉被美国暗中侦察。现代计算机时代的核心再开发因此也可以变成深思熟虑的预防措施。欧洲应该做得更好，例如在搜索引擎和计算机操作系统等核心技术的开发上应该有类似的作为。相对于美国，眼下欧洲的技术如此落后，基本无法超越美国。或许人们还可以思考，越过技术再开发，立刻进入未来的版本。若干非洲国家已经演示过了，在不存在计算机联网的有线网络基础设施的地方，他们直截了当地进入了使用无线技术的阶段。

随着购买国外技术和自行开发能力转移到更廉价的生产地，短短的几年内也会让德国自然科学家的威望逐渐消失。早在20世纪90年代有人就已看出，一个贬值（Devaluation）的时代开始了，“贬值”与压价相关，这是作为来自门槛国家更低廉的报价合乎逻辑的结果。今天，德国企业经过十五年的外包之后，走上了这条相同的小道，为数据融合寻找尽可能廉价的劳动力，与此同时，数据科学家常常被安排给错误的工作。德国企业不熟悉这些人才，或者说，他们在这里的工作安排完全有别于美国公司，压根儿没有能辨别他们的需求。不少的德国数据科学家失业或者抱怨没有尊严的编程工作，无法表达他们的理性之美。如果德国企业相信，成功的数据分析已经得到满足，当有人把他们托付给实习生或者即将毕业的大学生，他们起码在这一点上必须说：您迷路了。优秀的数据科学家在21世纪第二个十年较为成熟的行业环境里也很少能找到。只有少数几个年轻的高校毕业生能与一个有经验的数据科学家匹敌。因为数据融合是与科学相同的艺术，一个数据科学家如同一瓶上好的威士忌，储存越久，酒质越好。当一个有经验的数据科学家仰望他的数据星空时，他能够观察到各处的闪亮。就算没有更多的数值，他也可以立刻感觉到哪些数据互相影响，人们可以对这些状态做出一种认知盈利的描述。在不同工业领域的职业经验对于数据科学家和其委托人具有同样不可估量的优势，因为只有数据科学家具备来自工业、科学或者企业管理方面的操作性知识，才可得出最佳的分析结果。他全部的职业重心是那个他的模型可以汲取的源泉，而且他将从数据流中赢得新认知，从而实现一种有意义的数据融合。

一种额外情况会导致这样的假设：数据融合是一种容易标准化的过程，是对标准算法不断增长的可支配性的分析，一种完全值得期待的全球知识的民主化的影响，并且尝试去引导非自然科学家的复杂的过程。但是数据分析和人工智能借助在金融领域不起作用的拖曳与拖放软件（Drag-and-Drop）。在那里，人们愿意在广泛的基础上使用进行行情预测的神经网络，低估了其复杂性，然后简单说明如下：“神经网络不管用。”如果数据科学家对此没有明确的设想，对他的原始数据期待哪些答案，哪些技术产生最佳的影响，毫无疑问，这些技术辅助手段是完全无效的。只有方法和算法允诺他最优化的结果，他才会挑选和阐明它们，但是我们首先还要搞清楚一个中心概念：算法到底是什么？

实用主义者会相当简单地说：算法只是一种计算方法。当我们读小学做加减法、开平方时，就掌握了计算方法。因此计算方法让人明确，它与数学及其公式、变量和公理密不可分。近几代小学生获得了经验，计算不仅可用大脑，如果使用计算器，还可以自动计算。由此出发迈向个人计算机利用的一步不再遥远，大家在这点上并无异议，并且一致认为：算法就是一种计算机程序，或者说一种由处理器执行的、明确界定的计算步骤的顺序。因此我们可以保持原样——尽管这个概念背后还隐藏了更多的东西，因为每种计算方法其实都是基于一种数学假设，一种抽象的描述或者理论，不只是一再全新地体现一种计算途径的重复正确的结果。

那些想象出计算方法的数学家，长期被贬低为“算法学家”。当一个理论数学家在形式上证明无解的数学定理或者为推导新原理而绞尽脑汁时，可能会指着一个同事说“那人是算法学家”，这无异于一句骂人的粗话——就像说这人是研究数学中低级（niedere）艺术的人。如今情况发生了变化，正是算法学家，让理论数学成为“失业的”（brotlose）艺术，因为20世纪初伟大的数学成就已经完成。两种类型的数学家的区别在于行为方式，他们如何接近一个问题。假如您在一个坐标系中画一条抛物线，给两种类型的人布置习题，寻找抛物线的最小值，也就是极值；在抛物线的最小值上，抛物线既不上升，也没有下降，这个极值的上升也就是零。理论数学家解这个问题，首先是通过为抛物线找到函数方程，然后形成其导数，找出其极值，计算抛物线的斜率。¹⁶算法学家更强有力地解决同一个习题，尝试以务实的方法得出同样的结果，也就是近似（approx-imieren）。他会在这条抛物线旁画出许多条切线，尽量长久地来回试验，直到切线不再呈现或者几乎没有斜率。他也许会对此表示满意。具有说服力的是，理论家或许会轻蔑地说，这是建筑的马虎。重要的不是美，算法学家反诘道，它必须发挥作用。

计算方法，即计算机程序，以最短的步骤得出结论是最美的。在1964—1965年间一个俄罗斯裔的美国物理学家雷·索罗莫洛夫（Ray Solomonoff）和俄罗斯数学家安德里·柯尔莫哥洛夫（Andrei Kolmogorow）都取得了一项发现，当他们为计算寻找方法时，往往需要用最少的步骤得出结论。他们的发现作为算法复杂性理论或者最小描述长度（Minimum Description Length，简称MDL）被载入史册。他们可以编写计算机程序，该程序又可再度编写一种最短程序长度的计算机程序，解决一定的问题。这听起来是冒险，而且实际上也只有几个算法学家践行了来源于俄罗斯数学家的认识。但是假如有人使用了一种程序，该程序可以产生其他计算机程序，这些程序又可以解决众多的问题，就是美好的。而且从此出发，距离在大数据中发挥重要作用的人工智能已不再遥远。

如果那样分析数据，让一种判定推荐或者直接的机器行为指令在形式分析的基础上在用户处实施，一台机器就需要昂贵的技术基础，为分析、数据融合和决策机制执行自身的计算核心（Berechnungskern）。在许多领域，例如在对冲基金行业及其交易所，在军事领域或者搜索引擎提供商谷歌那里，计算核心是得到最佳保护的运营机密。人们为什么要竭力为计算核心保密，这里以谷歌为例做出最佳说明。假如一种产品与服务在搜索查询的第一批结果中没有出现，可能会对供应商造成经济上的不利后果。谷歌对其搜索算法，即包括许多变量的排名运算算法法则严格保密，因为如果他人认识到如何可以详细得出搜索结果的黑名单，便可以打开操纵与对策的方便大门。¹⁷因此了解一种计算核心方案的人，知道机器怎样运行，就可以智胜它。这点在金融服务领域也为人熟知，该领域像谷歌一样承担着类似的严格保密任务。谁熟悉一种交易算法如何工作，要么能够对其进行重构，要么能够对其实施删除，例如其可以借助非法的高频交易的提前交易（Front Running），即总是比交易算法快一步。各种情况下，一种计算核心就是金子——这指向钱，非常多的钱，以及价值。在参与竞争的经济环境中，一种计算核心因此赶不上持续的后续发展，谷歌就是这种情况，其搜索算法自1998年第一次实施起，一再得到修正。¹⁸人们一定知道，数据融合不是随同机器执行的一劳永逸的过程。世界变化迅速，数据量与数据内容呈指数级增长。基础设施也不断发展完善，导致一种变化，引起现有的所有数据量的统计特性发生改变，造成非平稳过程（Nichtstationalit ät）的现象。不仅人，而且机器都要能对付现实的动力。当它们是适应性的（adaptive）时，才能如此。它们自己也必须经受持续的适应与改进，以期跟上其动态环境的步伐。人们可以通过两条途径实现这种适应能力：要么数据科学家一再重新让一个数据融合的模型变量与自身变化的环境相适应，要么机器自身能够学习，知道何时和怎样接受其参数。在本章这里再次让人联想起，大数据之中到底涉及哪些内容：人工智能。学习的机器是优化者，而且它们属于包含许多不同方法与表达方式的人工智能的宇宙。

适时地执行数据分析，正如在德国企业初步得到的尝试，仅仅是逐点的，在科学上很少能够持久。信息学专业的大学生在一家全球化经济企业实习时要分析销售产品的数据，为了做出2014年9月营业额的预测，还考虑了2013年、2012年、2011年三年的9月份的历史营业额，这更不合情理，因为这些数据有可能是从今天不再买得到的商品得出的。就像您必须做出明天的天气预报，不会去查询一年前的天气如何，而是从今天的天气推断到明天，再到后天天气。您自然明白这点，您也可能会认为这将冤枉工业。其实类似的失礼常常出现，运用高度可疑的分析结果，因此提出问题：大数据如何具有可靠性，一台类似的机器，其直接的操作手册怎样才正确或者有意义——尤其是涉及比纯粹销售数字更多的内容时。人自己将成为计算、预测和监控的对象吗？比我们更确切地搞错，世界不断增长的量化与测量意味着还要一无是处吗？

在一种数据融合算法提供期待的质量结果与准确度之前，尚有一段漫漫长路，而且结果开始很少会符合预期。因此不能认为一种计算方法实际上导致错误的计算机结果；尽管具体查明，分析结果基本能避免用户对数据融合的期望。或者分析结果，特别作为预测考虑时，并没有与现实近似地取得一致。泰迪·肯尼迪是美国一个知名的参议员，在乘坐飞机取登机牌时曾经五次受阻，因为他出现在一份美国国家安全局的名单上。¹⁹常识告诉我们可能哪些地方出错了。美国国家安全局的确比我们所有的人都知道得更多，也许他们对肯尼迪只是做了错误的分类。

让我们再次返回天气预报的例子。为了预测，您可能会这样做，拿起中世纪晚期提出的百年历法：天气每隔七年重复。在2014年10月18日，您认为这是一个能与2007年相比的年份，根据那年秋天做相应的预测。虽然您可获得一种预测结果，如果准确推断，您无疑是幸运的。但幸运并非始终垂青您，而且这天的天气可能与预期截然不同。偏差的原因在于您为预测而挑选的系统，其预测与现实存在较大的偏差。您要理解如何预测天气，通过采用2014年到2007年之间的变化影响，从而确立一种与百年历法的关系。一个数据科学家采取的行动非常相似。但是随着当今的数据量分析，一个数据科学家踏入了陌生的疆土。只是他最近才看见要面对非结构数据的洪流，数据形成一种高度复杂的现实，他的第一个问题应该是这样：我想从这种数据分析预见哪些认知？哪些内容我需要更好地理解？他因此描述了一个问题，他想运用一台尚不存在的机器解答，除非描述的问题已一次性得到了解决。因此数据科学家的第一个困难是找到一种合适的系统，也就是开发一个模型——一种由变量和公式组成的系统——它踏上了获取更多知识与认知的道路，通过命名事实特征，描写其交互影响，彼此连接一切。挑战不仅在于发现哪些变量，在交互影响的游戏中彼此结合，得以实现这种认知获取。预期的认知自身再次成为一种变量——因为人们先验地对此什么都不知道，不然也不想对此继续学习——一种无法观察的变量，一种隐藏的变量（latent Variable）。因此一个模型由可观察变量组成，由于无法直接观察隐藏的变量，我们对此并不想知道太多。对，我们现在已经在一块厚木板上钻孔；一个例子让考虑内容清晰：您想知道一只确定的股票价值如何。股价（Aktienpreis）只能继续帮助您一点：它肯定不符合股票价值（Aktienwert），因为有价证券可能被高估或者低估。您能够观察股价，然而观察不到股值：它是一个隐藏的变量，不能直接识别。但是作为概念存在，可从各种不同的观察中推导：何种价格可以实施股票交易，市场表现出多大的需求或者这种题材股显示了哪些波动性。

能够熟悉，并且接近实际地描述一个模型的变量，这样的奢华很少会提供给研究者。在认知获得之前，常常面临精神的贫困和对模型变量内在构造的无知。有数据科学家认为一种变量的重要性是通往更多认知的途径，但并没有直接了解变量在个别情况下如何表现，他会把它作为偶然变量（Zufallvariable）考虑。之后他虽然没有描述变量的内在动能，因为他知之不多，但是起码给出了它的值阈。假设一个变量描述一个正六面体，那么其值阈就位于1和6之间，1、3、4像2、5、6那样以相同的概率出现。出现相同的频率意味着均匀分布（Gleichverteilung）。您一定想克制打哈欠吗？一切都正好让您感觉极其抽象与理论化，但是均匀分布的假设可能是一个错误，它让您陷入财政的崩溃之中，您掷骰子赌钱，用的骰子是您对手准备的。

类似的危险是正态分布（Normalverteilung）。不同于均匀分布，所有的结果都以同样大的概率出现，正态分布的事件围绕一个聚点累积。这个聚点所处的位置，是一个合法的问题。那么有人假设一只股票的价格，他将在明天“用某种方式”公布一个今天的价格。您图解式地设想两种分布方式：您掷骰子结果的均匀分布，摆在一个坐标系中，除了一条水平线，什么都没有得出——笔直，具体，良好——，自身没有任何信息。因为对于所有六个数字来说完全一样。1、2、3、4、5、6，出现的概率始终为六分之一。假如结果比极值区域内左右相距甚远的聚点更频繁地出现在一个聚点周围时，曲线将是另外的情形。明天像平时那样没有特别事件发生的概率也许远远大于中乐透彩票头奖的概率。如果您不玩彩票，明天成为亿万富翁的概率，几乎等于零。因为正态分布事件对称地分布在一个聚点周围，就像教堂挂钟的剪影那样涂抹在坐标系上，有人面对正态分布马上想到“钟形曲线”。当您面对这点时将再次感到眼皮沉重：正态分布拥有的世界，正如我们对它的认识，从2008年9月起的经济上可以看到深渊。正态分布不是我们技术进步和善的证人，它是一个诱惑人的积极同谋。也许不是每个数据科学家，但却是银行、工业和国家领域的门外汉，此人打着手势，说：“灾难事件在一百个例子中只出现一次，九十九次都是好的。偶然一次算不了什么。”

数据科学家会对这种草率不解地摇摇头。我们假设，一架飞机坠落在新柏林机场的万湖航线不远的核反应堆上，发生概率为0.0001%。²⁰充当同意修建机场说客的人会满怀信心地通报：“风险极小，完全可以忽略。只有百万架飞机中的一架会在核反应堆上坠毁。”那种灾难何时准确发生我们不知道。也许是明年，也许是后年。而且由此确定：即使剩余的风险极其微小，也还是会百分之百准确无误地出现——可能在任何时候。

通常，一种标准范围以我们对风险的假设为基础，其中系统是可靠的。然而最频繁的情况也许是什么都不会发生，只要德国首都机场投入运营，您就有可能不会遇到任何事故而享受航空旅行。然而事实是：我们常常不知道，风险到底有多高。也许只有0.0001%。没关系，赞同机场修建的说客自鸣得意，这总归微不足道。数据科学家的看法更具批判力：风险比预测的要高四倍。在他的语言里把这种现象视为厚尾（Heavy Tail），这种“厚尾现象”，在正态分布情况下出现在钟形曲线外的附近，当曲线从那儿往上拐弯时，因为极端的结果比假设更频繁地出现，然后通常不再符合一条对称的钟形，而是向左或向右倾斜的。正态分布显然低估了这种风险，随之就可能会发生灾难性事件。²¹有人希望不多，但是最后获得比他喜爱的要多。而且当那种特别罕见的不幸事故出现时，其成本甚为巨大，乃至几乎无法用数字估量。正如倘若福岛核电站四台反应堆大概有三台同时出现核泄漏呢？如今这个风险已经显示，成本极其巨大。不单是经济成本极其昂贵，这几乎是数字上难以估量的代价，要由过去的福岛居民支付——他们不得不离开家乡，再也无法返回故里。

但是为什么正态分布尽管有其内部潜伏的危险，却仍旧让人喜爱并频繁使用呢？在建模时，数据科学家常常潜入统计任务的深处，利用历史数据，从以往的现象积累中得出未来的出现概率。因此经典的、最频繁的原理可以在统计中实验性地计算频繁程度。您扔出一枚硬币，常常会出现头像面或者数字面。您用一枚做记号的硬币，数字在上面有60%的概率出现。因此您赌数字赢。你十次扔出硬币，但是瞧：十次是头像面朝上。您哪里做错了吗？也许您没有马上意识到问题在哪儿：投得不够多。您做记号的硬币的统计结果——60∶40——可能在一万次投掷中能可靠地显示，然而在十次投掷中却不是这样；如果是这样，那么您就可以说是幸运的。显然，大量的数据——大数据在大数据量的使用意义上——提供更多的、因此也是更可靠的计算结果，统计学家称之为大数定律，谈论的是数据统计的重要意义。十次投掷统计上不重要，但一万次投掷却是如此。如果存在足够大的数据量可以计数，人们只能对现象做出可接受的陈述。古典的统计学家在他迈出意味深长的一步估计之前，也会从一定量的数据中得出结果：数出的结果如何分布呢？他很少能非常确定。也许他可以识别一个聚点，假设聚点周围是这种对称的钟形曲线的正态分布，因为他知道其形状在中长期还会非常频繁地出现。此刻大数据科学家美化他的模型，从现在开始，它可以相当多地避开实际——带着这个著名的问题，对风险的出现特别低估。然而美化是舒适的，因为正态分布的形状符合解析公式，它据此可以得到计算；它在数据科学家的模型中表现不错，因为它能够轻易地嵌入他们公式体系中的所有公式之中。

模型，统计——一直到人工智能，不总是还有下一步吗？统计是某种东西，它收集、计算和展示结果，从人口普查直到经济。

有别于我们一再期待的，世界它如何围绕我们，不是决定论的或者离散的，而是高度复杂的，一种经典统计学不再能把握的特性。但是另一个统计学的分支领域可以为我们的生活复杂性建构技术的上层建筑。它是统计学，但是又与之有矛盾：一个得到广泛讨论的特殊学科和人工智能最重要的从属学科，由于其极为昂贵和复杂的计算被视为更为困难的学科。尊敬的托马斯·贝叶斯（Thomas Bayes，1701—1761）是长老会的长老，人们把概率论的基本成就记入了他的名下。²²贝氏统计学，为了简短，只采用他的名字。尽管关于这位令人尊敬者在哪里习得了数学知识我们知道的并不多，但信件给出了答案：1720年，他在爱丁堡大学学习数学专业，作为不熟悉专业的大学生——他被视为当时最有天分的希腊语学生，特别需要对此进修。²³我们对他的传记知之甚少，所以不能宣称数学是他的爱好。有别于传统的统计学，贝氏统计学没有致力于计数试验，而是提出假说，如同可以信赖的——“有说服力的”——一个事件。为此，这种假说考虑了主观的假设，先验知识和经验，然而又并不排除古典统计学的计数，这意味着这种方法允许与古典统计学的结合。

古典统计学家对此很是厌恶。他轻蔑地思考，一个贝氏统计学家应该掌握哪些“先验知识”？这些“先验知识”从哪里来？为何贝氏科学家最初对其变量的分布不感兴趣？简直是欺骗，这个频率论者这样认为，为何贝氏科学家只得出荒谬的观点，依据“其生活经验”，顺手简单地确定其变量的密度函数，就像他刚刚认为函数是可信的？

这个数学家——他好像要成为魔术师和可疑的炼金术士时，认真地怀疑过。您知道小帽子游戏吗？不是这个您肯定会受到欺骗的游戏，而是统计学家的严肃游戏。对于这个简单游戏，主要涉及信息的利用——您回忆一下，在做决定之前，数据融合或者进入位置分析的信息。

一个公正的游戏大师会请求您从A、B、C三顶帽子中选一个，您认为哪顶帽子下面藏着一只小金属球。您选择了C。这位大师将从剩下的两个帽子中揭开一个，比如说B，打开后发现下面并没有金属球，然后他会问您是否确定自己的选择。恰恰在这点上贝氏统计学家会坚决地向您提出下面的建议：“您现在无论如何要选择帽子A！球位于帽子A下面的概率是C的两倍之高——三分之二。”

“不可能！”您现在大声喊，因为您直觉上根本不这样认为。但事实是，当您应用以下贝氏公式时：

有人会谨慎地宣布，这种游戏可有许多解，分别按照您选择的统计方法。

最初金属球位于小帽子A、B、C下的概率各为三分之一。如果您选择了C，大师揭开小帽子B，那么游戏中还剩下两顶小帽子，A和C，获胜的概率按50/50的变化——当您没有像古典统计学考虑额外的信息时，起码还是直观的。但是在游戏中能够获得更多。因为大师揭开小帽子B的决定，对您来说是一次手指的指示：大师只能揭开一顶帽子，他由此知道，金属球并没有在下面。这正好是您的先验知识：大师知道，金属球在哪里。他知道，马上传达给您：球不在帽子B下面。

“我们假设一下。”贝氏“咒语”——公式的第一行如是说。我们假设一下，金属球在A下面。

“在此条件下”，接着是“咒语”的第二行，在此条件下，假如金属球位于A之下，那么大师掀开B的概率也许是100%：P（大师B|A）＝1。因为藏有金属球的小帽子A他也许不会打开，不然游戏便提早结束了。

在此条件下，假如金属球位于您的小帽子C下面，那么大师掀开小帽子B的概率，在50/50的前提下较少，因为也许可以在A或者B∶P（大师B|C）＝1/2之间任意选择。把您与数字相关的理解代入贝氏公式，这会导致意想不到的结果，小帽子A拥有2/3获胜的概率：

而C也许是空签，因此您应当改变决定。没有保证，但起码有较高的获胜概率。

什么东西引起了您的注意？这里用了大量篇幅解释，而数学的描述语言用了不到一行就可以总结。

运用推导信息，那种“先验知识”可以做出更好的决定。这是我们从小帽子游戏中应该汲取的教训——此外也可以从我们在第一章就遇到的沙漠侏儒的故事中汲取。在大数据中包含了大量的推导可能。

宗教哲学家理查德·斯文伯恩（Richard Swinburne，1934—）运用贝氏统计法，计算上帝存在有多大的概率。同样的思考，物理学家史蒂芬·昂温（Stephen Unwin，1956—）也提出过，²⁴也使用了贝氏统计法。他的思考从假说开始，上帝是否存在的起始概率为50/50——在贝氏统计法中也叫“先验概率”。如果此概率50/50均匀地分布，那么伴随着这种对称具有最大的熵，它一点也不包含信息。就是在这儿，他相信的度上，史蒂芬·昂温让他的主观方面发生了作用。一个经过证明的无神论者有可能从另外一个起始概率出发。

理查德·斯文伯恩为了论证上帝存在概率，在其贝氏模型考虑的推定论据是“复杂的物理宇宙的存在”，宇宙中可识别的秩序，具有意识天赋的物质存在，一方面是人与动物需求之间的协调，另一方面是环境事实，这种可能奇迹的存在和基本的自然常数的精确调整。²⁵另外，个人宗教经验如同祈祷请求或者天意所为可能变成模型的变量。那么大数据科学家给他的模型逐渐配备了不同尺寸，利用了理论思考的先验知识、数据和经验，来确定它们的先验概率，计算其模型的其他变量。因为与传统的统计模型相反，在贝氏模型中，每个变量都配有一个所谓的“密度函数”。这种概率密度函数（Probability Density Function）描述了基本假设和这种变量的先验知识。变量的计算，大数据科学家获得认识时对此感兴趣，但是不再像古典原理那样通过计数和分布假设，而是通过其密度函数的计算。在贝氏模型中根本不会得出理想化的假设。放弃对先验知识的编码，每个条件或者“事实”，允许朝每个方向推论。在这个条件下，治愈奇迹出现了，上帝存在的概率上升了很多。史蒂芬·昂温此外还计算了一个67%的“赞同上帝（pro Gott）”的值。²⁶上帝存在的概率为三分之二——这可比您现在想到的要高许多。当您带着这种盈利概率的交易算法走向股市时，就会把它与资本投资战略相融合。你会前途无量，财运亨通。

尽管在贝氏模型中有许多主观假设——起码要敏感地对先验概率做出反映；10/90或者75/25改变上帝是否存在的结果，达到概率为18%或者86%²⁷——这种方法在数学上非常令人信服。还有的事实是，北约国家在他们的关于类似军事装备（STANAGs）的标准化协议（Standardization Agreements）中明确要求用贝氏原理实施位置分析，可以推断这种原理极为有效。假如您任何时候都能提交一份北约军事位置的分析报价，那么就不愿考虑建议某些与贝氏原理不同的内容。运用古典统计法您也许会未达到军方的要求。但是保持公平意味着承认贝氏统计法不是每种情况都是数据分析的首选。人们对变量的先验概率知之甚少的地方，就不会喜欢它。那么古典统计法的手段和测试方法的运用是更好的，经过检验，数据是否正态分布，这种测试最终都无法描述真正的数据分布。在任何情况下适合于：每种模型，类似于哪些方法，像数据科学家自己开发才是好的。

不知何时数据科学家实现了第一个目标，而且描述了一个模型，不再愿意更长久地对他最急迫的提问相应地反驳。但是若干障碍必须跨过：粉笔写满公式的黑板如何成为一个计算机程序呢？而且这类程序是那么智能化，能够预见未来，为了比我们人类做出更好的决定吗？“用昨日的答案解决不了明日的问题。”阿尔伯特·爱因斯坦曾经说过。²⁸事实并非如此——爱因斯坦说过这句话和此话有无在内容上涉及都不真实。因此对大数据来说牵涉到的，正是从众多过去的数据推断未来，对未来如何发展，尽可能施加影响。显然，这里控制、操纵、监控的思想已浮出水面。在若干案例中，这种意图停留在社会利益中：如果气候模型揭示，一定的人类行为对下世纪的气候变化造成不利影响，社会团体就可以在政治上有所作为，每个个人也可以直接为此工作，强力地阻止损害气候的行为。在注视私营企业利用大数据时将极少具有理想色彩：非常清楚，这里的前提在于把透明的消费者变成受操控的购买者，为了赐福经济，为了营业额、盈利和企业价值的提升，购买者应该更多地消费。因为不同于气候研究者及其模型，使用例如火山爆发、太阳辐射或者二氧化碳排放等记录的通用数据，许多商业企业优选提取我们的个人数据，利用他们的监控尝试直接插手我们的自主，在大多数和最没有危险的案例中“仅仅”插手我们的消费自主，但是没有人会持续抵抗这种诱惑；最终，机会造成了盗窃，谁能行，谁就将控制我们的消费行为之外更多的东西。

我们首先不回答计算机程序或者计算方法的问题。如果大数据科学家定义其模型的变量，那么下一步就将决定如何计算变量——借此画一个圆，我们可以再次返回算法。第一步：开发一个变量组成的模型，该模型可以解决一定的问题。第二步：考虑行为指令——算法，应该如何计算该模型的变量。

您也许认为这是一种儿童游戏，一切只是实践的转换问题，因为借助该模型，认知树已经被发现。完全错了，因为不仅是大数据科学家可以咬唯一的苹果，为了离开他迄今还在进行哲学思考的天堂。他一定要做出决定，在哪条路上，他启程前往现实，他的模型借助这条路计算当代与未来。在这条路上，他自己发生突变，数学家在此由艺术家变成算法学家，那种数学家类型、那种文艺欣赏者的少数类型，因为更确切地说暴力是个性特征。而且这件事遇到的困难是：模型与算法可以融合，边界常常处于流动中。在证券交易算法的美国式表述中，这种融合漂亮地得到表述：在德语区就是“Algo”（算法），在美国叫作“The Mode”（模型）。显而易见，模型的个别变量配备了一种计算方法，尤其当人们为一个公式体系寻找一个完美、通用的解时。然后对此问题尽可能长时间地转述，运用推导原则，直到所有的变量得出有关它们结构关系的陈述，并且这种潜在变量、认知或者假设的问题直接作为解出现。您回忆一下，也许就是理论数学家的行为：构成导数和找到理论上普遍适用的解。当数据科学家更严格地接受自律，保留在最初假设内部时，解才发挥作用。虽然这有可能，并导致一个漂亮的解，然而这类解常常缺乏现实的联系或者实践的重要性。

对于这点，让我们再次短时返回正态分布：对称的正态分布通常以一个模型的众多数量为基础，导致的结果是，假如正态分布实际上真正地符合变量，那么一个模型只是直接地复述真实情况。更戏剧化的表述为：如果不是这种情况，有人可能高兴地利用所有能想到的测试方法和算法核算——这些结果实际上一点也不具有说服力，与事实没有任何关系。无法直接复述现实模型的例子比比皆是；其中各种由现代的投资组合理论得出的案例就是失灵的，尽管人们几乎不愿相信这些理论被授予了诺贝尔经济学奖。设计了解释商品货物过渡时价格形成的模型之人，起码应该能够用他的模型完整地说明历史的价格。如果模型和历史真实之间的差异出现，那么就是轻率地宣布这种差异不存在，一切不符合模型的东西不是经济的交易，而是纯粹的投机。值得思考的还有这种情况，模型无法全面或者正确解释价格形成。相信这种模型，可能会导致错误评估真实的经济状况，对经济产生灾难性的后果。因此纽约大学库兰特研究所副教授纳西姆·塔勒布（Nassim Taleb，1960—）2007年就曾经敦促未来不应该把诺贝尔奖授予经济学。²⁹，³⁰从2008年银行业的地震看来，他的意见是正确的。即使研究人员例如罗伯特·莫顿（Robert Merton，1944—）与迈伦·斯科尔斯（Myron Scholes，1941—）、费舍尔·布莱克（Fischer Black，1938—1995）因为期权定价理论共同获得了1997年度的诺贝尔经济学奖桂冠，如今面对他们当时的观点也令人沉思。可惜他们的思考未被听见，尤其在数学的门外汉之中。一种模型获得诺贝尔奖，该理论在成百上千所经济类学校和大学传授，今天在无数的金融企业投入实践应用，作为致命的论据发挥着作用，人们对此只能沉默。这些结果本来应该在一百万年里才出现一次。显然，经常过度的出现并没有让这些拥有数学判断力的人觉得奇怪。事实上，它们出现的概率被强烈地低估了。

再次返回一个模型中的导数。模型中的问题再描述常常不起作用，因为事实上对变量系统的结构的关系所知甚少；或者那种关系如此复杂，一个形式导数也帮助不了我们。当一个方程组因此开放，可能有很多解时，接近过程道路的结果和近似于解的算法学家会再次受到追问：如果这是模型和算法之间额定的断裂点，允许模型与算法之间确定界限吗？我们最好选择一个逻辑划界。数据融合的第一个逻辑块是该模型，描述可观察的与潜在变量之间的一般关系；我们用现存的数据量给该模型“充电”，借助位置分析获得了真实状态的描述。在军事领域可能这是敌人的位置；在敌人雷达竖立的地方，在坦克开到的地方，哪些飞机在跟踪产生区（Track Production Area）和“受监控航空区”内运动，敌人的位置大概怎样继续发展？在股票交易中也许是认知，DAX股指处于上行趋势，经过推论市场也许过热。因此这种第二逻辑区块是算法，它对此利用了模型的位置分析，计算一种通告的决定。它使用模型，评判变量，考虑评估变量中的不可靠性，试图在位置分析的基础上做出优化的决定。算法，按照分界，也许是优化者（Optimierer）。

我们期待大数据，一款智能机器，它给我们决策提供支持或者告诉我们直接的行为准则。运用一种模型，我们便能立即确定实施位置分析。“今天天气炎热，明天气温再次升高的概率大。”这是一条信息，有人虽然可以用它开始工作，但是给数据融合的用户一个明确的指导才符合期待：“明天会更热。花一天时间去度假，去游泳吧。”作为计算的结果，算法基于形势分析实施了计算。这里轻易描述的内容是数据融合的中心函数：与未来的预测相比，它涉及的没有更少的内涵。如今只有历史的，而且是消失的数据量在大数据中存在。运用这些数据量，数据科学家给他的模型“充电”，由此获得一种对有关过去（Vergangenheit）的非常不错的解释。因此适用于所有的模型：它们首先为过去推导信息。如果一个大数据科学家不断地改进他的模型，始终与他的历史数据量互相影响，他最终能够并应该走得更远，没有瑕疵地阐释过去。现在，这对认知的获得的确是方便的。特别是当人们根本不知道若干变量，它们最终怎样准确表现时，如何从完美理解的过去推导到未来呢？再次回到我们熟悉的天气预报。天气预报的准确率，按照德国气象台的说法为90%，没有其他领域预报的命中率那么高。对气温与风力的预报特别准确，但是非常困难的是预测降水，因为降水是一个包含众多参数的复杂变量，这些参数共同作用，作为单一数量几乎无法正确预测。此外，未来预测还要与其他的特别难题做斗争。

一个模型试图描摹真实的片段，但是我们的事实不是固定的量值，而是高动态的，我们的世界不停地发生变化，旧概念有局限性，有时需要完全崭新的定义。如果几十年前家庭还是由丈夫、妻子和共同的孩子们组成的，那么今天的家庭实际上意味着所有的一切：两个丈夫或者两个妻子，一个非婚生的大杂烩家庭。变量“家庭”在过去的定义不同于当代的。相对主义不仅是人的问题，而且是机器的问题——一个自身的问题，概念模糊了，其意义随时代发生变化。倘若这些意义变化熟悉且渐进发生，这些未必算问题，也就是可以领会的缓慢，就像对家庭概念而言确实是合适的。但是某些东西，当阐释实时发生变化，我们却没有意识到这种变化，除非我们分析事后的事实，并确定某些内容已经不再是不久前的那样了。在非静态（Nichtstationrität）之中关系到我们生活的上述奇特性。

这种现象也出现在货币市场。一种预测的样本在货币价格的变化中可在当年导致做出采购决定，也许下一年具有明确的相互意义。在货币价格中对样本寻找发挥作用，因此非常有限。太多的白色迷醉，几乎不存在有用的信号。欧洲央行关于利率变化的表态，如今预示欧元的升值，有可能同样的表态在下一年会导致欧元贬值，这始终取决于欧洲范围内目前所处的哪些经济体的心理状态——危机，经过处理的危机是否好转——哪些被广泛关注的实时新闻，拥有最真实的词义。总的来说：从来没人能完全地确保预测。

用数据科学家的科学工具，这些不可靠的预测至少可以更可靠地设定，也就是大量模拟可能的场景。这儿有一个工具是蒙特卡洛方法。这种模拟结果是预测充当随机（累积）概率，它具有偏差。再说说天气预报，您熟悉这种偏差。德国电视一台（ARD）向您展示了未来一周的气温趋势。在一张图表上，平均温度由白色线条代表，在白色线条周围您看到一块位于下方的灰色区域，波动频带宽度（Schwankungsbandbreite）。说明很简单：未来一周大量不同的天气场景建议，温度将平均地沿白线运动。温度可能是真实的，但也可能位于上方或者下方。这是未来一周较低概率的场景，但它们不是非现实的。在人们可能对天气预报提出的所有反对意见中，它始终有其隐患，特别（数据科学家高喊：“当然啦！”）对准确的预报来说。但总之预测的精确性与20世纪八九十年代相比已经得到了显著的提高。模型得到了改进，计算机的运算速度更快，可供使用的数据也更多。若要气候模型回答人类是否对气候变化负责，类似的东西也适合于当前的气候模型。今天有人认为，由于地球变暖造成的极端气候事件的增加最终应该追溯到人类活动，因为仅仅诸如火山爆发、太阳辐射或者地球水资源变化等自然界的气候事件尚无法解释地球变暖。气候专家的计算模型为本世纪计算出1℃到6℃之间的变暖。这是一个非常大的波动频带宽度；但是，当我们回顾近年来历史上真实的气候变化，其中魔鬼旋风和世纪洪水作为地球有限性遭到毁灭的预兆出现了，6℃方向的发展似乎在这期间更有可能。³¹

我们由此结束对模型的长期观察、计算与限制，从而确认：模型只是给出关于过去的正确答复，如果运用非常多的数据对其核算时，可以做出有意义的预测。几年前还表现为问题，如今用大数据都能最终解决。少量的数据不拥有统计上的重要意义。在少量的数据中可能偶尔记录了真实的影响，偏差值在实际中只是非常少地出现，对认知获得并不发挥作用。运用大数据时受偏差值捉弄的风险就没有那么高了。因此在涉及公民与消费者时，数据采集第一次经历了不受丝毫限制，从而再度导致与模型相关的反馈效果：关于我们和世界的可以使用的数据越多，那么模型就越能精细化，越能精确描述，直到它们对我们做出更好的解释和更好的“理解”，最终比我们自己知道的更快，诸如我们将来希望，行动或者思考的内容恰好就在这里，鸿沟在我们“新”“旧”生活之间开启。

在旧生活中，机器是人类的支持者，的确伴随着工业化的各种熟悉的问题。在新生活之中，智能机器将要超越人类许多能力。而且恰好从此开始的危险正在威胁我们人类，模型及其算法在此长出了独裁的萌芽。尽管这种独裁没有面目与名字——除此之外，这条著名的、垄断的和私人的数据抓取和若干想要用帝国手段在全球贯彻其世界理念的意图清晰可见，我们社会的未来将由精英和他们在数学和物理方面的知识决定。这并不新鲜，因为在古希腊时代能够与不少于一万的数字打交道的人就拥有特权，一般的民众只能数到四或者五。但是倘若机器能够比我们自己知道和预测的更多、更好、更快，我们未来还能够在何处体现出我们人类的独立自主呢？当智能机器君临世界时，利用互联网、云、移动设备和无线网络作为中间件（Middleware），作为数据互相交流的“连接件”，倘若它们不间断地无处不在地收集新数据，为了对它们分析之后回到我们这儿，并且说“你做这个，做那个”，我们人类的独立还剩下什么？我们在上百万年的演化进程中获得的智慧空间里还能置身何处？我们的本能和历史文化知识的空间呢？未来我们也许都没有能力拔掉那些机器的插座，以摆脱它们的影响；因为随着替代能源领域的进步，机器将愈来愈独立于电网，机器能自主地利用太阳能满足其能源的需求。这种比我们更有优势的机器范式变化早已发生了，社会上所有的人，尤其是职业人士都感觉到了：实际上在经济领域破裂已经出现。传统的东西已经失灵了，许多业务领域也无人问津。涉及各行各业，从国家到国际运行的企业直到教堂。面对大数据，每个人都被迫寻找新的商业模式，也许能重新发明，为了投入新时代而并非永远走向毁灭。

(1)EADS，欧洲宇航防务集团（European Aeronautic Defense and Space Company）的简称，也被译为“欧洲航空防务及航天公司”，是欧洲的大型航空航天工业公司，是一个由法宇航、德国Dornier和DASA、西班牙CASA组成的联合体。至2004年，EADS雇员超过11万人，分布在世界的70个地方。EADS公司是继波音公司之后世界上第二大航空航天公司，也是欧洲排名仅次于BAE系统公司的武器制造商，主要从事军民用飞机、导弹、航天火箭和相关系统的开发。译者注。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈