宇宙图书馆

时间：2022-03-28 百科知识版权反馈

【摘要】：我们姑且把你身处的这个房间称为“宇宙图书馆”，里面收纳了世间所有的书籍。由于宇宙图书馆里收录了所有可能的书，这也就意味着它收录了所有在人类历史上被撰写和出版的书。如果我们想对宇宙图书馆的规模大小形成一个模糊的印象，不妨假设馆里的每本书里有50万个字母。宇宙图书馆里的馆藏就是自然母亲创造力的真相：全包全揽、无穷无尽。

宇宙图书馆_适者降临

想象一下，你站在一个堆满书的房间里，书垛直冲天花板。四面的墙壁上都是成排的书架，连留个门的位置都显得够呛。你穿过房间，开始翻阅周围的书。很快，你就发现房间里每一本书的页数，每一页中的行数，以及每一行里的字数都不多不少，全部相同。不过奇怪的是，这些书中的内容犹如痴人的呓语，不知所云。每本书的每一页，每一页中的每一行都是字母的随机排列，诸如“hsjaksjs……”或者“zvaldsoeg……”等，凌乱无序的字母中偶尔穿插着空格和标点。只有在十分难得的情况下，你才会找到几个有意义的单词，比如“cat”（猫）、“teapot”（茶壶）、“bicycle”（自行车），它们就像漂浮在文字垃圾海洋上的鲁滨孙之岛。

不消多时，你肯定就会对这些毫无意义的书感到厌烦。于是你选了其中一面墙上的门想出去透透气，推开门却发现自己进入了另一个一模一样的房间：四面墙上各有一道门，每扇门旁都围着密密麻麻的书架。书架上的陈列依旧如同天书，毫无意义可言。

这个房间里的门又把仍不死心的你带到了另一个几乎一模一样的房间，一个接着一个，无穷无尽，直到你终于意识到自己身陷于一个没有尽头的迷宫里，除了成堆的书，周围的一切都一模一样。你在探索的途中遇到了其他人，从他们嘴里你得知这个藏书的地方巨大无比。难以计数的书构成了这个庞大而又神秘怪异的图书馆。

我们姑且把你身处的这个房间称为“宇宙图书馆”，里面收纳了世间所有的书籍。

确切地说，所谓“所有的书籍”是指所有字符的所有组合方式，即26个英文字母以及标点符号的所有组合。这种随机组合方式的典型产物你已经见识过了，正是图书馆里那些毫无意义的文字垃圾。不过，偶尔你也可以在某本书里找到一个有意义的单词，一个表意通顺的句子，甚至是一整段话。按照这个思路，可以想见在图书馆的某些角落里，我们还是能够找到一些符合语法、言之有物的书。由于宇宙图书馆里收录了所有可能的书，这也就意味着它收录了所有在人类历史上被撰写和出版的书。

所有可能被书写的小说、短篇故事、诗集、真实或虚拟的传记、哲学专著、宗教典籍、科学及数理论著；除了用英语撰写的书，甚至还有用任何文字书写的书；有阐释世间真理的书，也有散布虚伪谎言的书；有对于其他书进行评论的书，有关于这座图书馆前世今生的书，有的正确，有的谬误；有关于你一生的书，告诉你你的人生从何开始，又将去向何方、归于何处；当然，也包括你现在正在阅读的这本书。所有这些书都被收录在这个图书馆中，宇宙图书馆的规模远远超出你的想象。

如果我们想对宇宙图书馆的规模大小形成一个模糊的印象，不妨假设馆里的每本书里有50万个字母（这不算特别多，基本和你正在读的这本书相仿）。不考虑标点符号，50万个字符中的每一个仅有26种不同的字母选择（从A到Z）。具体说来，一本书的第一个字母有26种可能，第二个字母依旧有26种可能，而后第三个、第四个……如果要计算有多少种可能的书，我只需要计算26的50万次方，也就是说26⁵⁰⁰ ⁰⁰⁰。这是个非常巨大的数字，在1的后面足足跟了70万个0，光是这些0的数目就已经比书里的字母多了。这个数字是一个超宇宙常数，已经远远超过了宇宙中氢原子的数量。

宇宙图书馆里的馆藏就是自然母亲创造力的真相：全包全揽、无穷无尽。只不过，我们在宇宙图书馆中要讨论的并不是用人类的文字写就的书籍，而是用遗传字母和化学分子谱写的DNA。

人类的文字或许能够记录整个宇宙，前提是那些语言可以涵盖的内容，但在这座宇宙最古老的图书馆里，化学才是创造新陈代谢和生命的通用语种。人类可以用散文和诗歌歌颂这个星球上数以万亿计的任何生命，但创造这些生命却只能用化学语言，特定的化学反应遇到生命基本的构成物，继而造就生命体。图书馆里的所有化学语言之和就是生命之歌。

在第2章中曾经提过，我们在地球上的部分生物体内已经总计发现了超过5 000种合成生物体自身物质的化学反应，包括用来合成DNA和RNA的核苷酸，以及用以合成蛋白质的氨基酸。大肠杆菌细胞内发生的近1 000个生化反应，正属于这个范畴。此外，还包括所有细菌、真菌、植物、动物及人类体内的化学反应。多亏了这些化学反应的存在，人类的身体才能够从糖和其他食物中吸收能量，修复不小心摔破的膝盖，补充身体里每天损耗的数百万个红细胞。

没有哪种生物可以同时具有所有的5 000多种生化反应，每一种生物只能利用其中的一些，一种生物所具有的所有生化反应就构成了该生物的新陈代谢。多亏了20世纪生物化学领域的新发现和21世纪早期的技术革命，我们才能通过对众多物种的研究，从而了解这些反应。目前，科学家已经把超过2 000种生物的代谢信息储存在巨大的在线数据库中，如京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes）以及BioCyc数据库。任何接入互联网的计算机都能方便快速地访问这些数据库。

图3-1代表了一种我们如何组织这些信息的方式。左侧列出了5 000种不同的生化反应，每个生化反应都以化学方程式的形式表示。为了避免冗杂，我只写出了其中的一个方程式：蔗糖的分解反应。其余的反应物都以简单的字母替代。我们考虑某种特定的生物，比如大肠杆菌或人类，如果这种生物体内具有该反应，我们就在对应的方程式右侧标记一个“1”，代表它具有相应的基因，负责编码催化该反应所需的酶。否则，我们就标记一个“0”。于是便得到了一长串连续的“1”和“0”，正如图中所示的那样，我们可以用这串由“1”和“0”构成的数列代表任何一种生物的新陈代谢模式。

图3-1　代谢基因型示意图

像大肠杆菌这样的细菌可以合成所有20种构成蛋白质的氨基酸，而像人类这样的代谢“差生”则只能合成其中的12种。我们缺乏合成其余8种氨基酸的酶和化学反应。以图3-1中的简化法描述新陈代谢可以很形象地解释物种间的区别：由于我们缺乏相应的生化反应，对某些生化反应而言，我们的标记就是“0”，而大肠杆菌的标记是“1”。

这种数列相当于一种简化的生物代谢基因型，是所有代谢反应的总和，也就是新陈代谢，所以代谢基因型包含了一种生物基因组中与代谢有关的所有基因。你可以把它看作是一种用二进制书写的文本，既没有标点，也没有空格，譬如“1001…0110…0010”。文本的第一个字符代表蔗糖分解反应，这里它的编号是“1”，而第二个反应可能代表合成某种必需氨基酸的反应，在这里的编号为“0”，代表这种生物不具有这种反应，而另一种生物则可能具有，也就是说其基因型编号是“1”，以此类推。

上述文本只是宇宙图书馆里的其中一个例子，事实上，庞大的图书馆内包含了所有可能的代谢基因型。

用计算图书馆书本数量的算法，我们同样可以计算这种编码方式下的所有编号数量。每一种生化反应对于某种特定生物的新陈代谢来说只有两种可能性，存在或不存在。对于第一个反应有两种选择，第二个反应亦然，以此类推。当检验过每一种生化反应后，编码的总数就等于与反应数量相同个数的2相乘。就已知的5 000个生化反应而言，可能的基因型一共有2⁵ ⁰⁰⁰种，每一种基因型都是由“0”和“1”构成的数列，代表一种不同的代谢种类。这个数字超过10¹ ⁵⁰⁰，也就是1后面跟着1 500个0。虽然比不上我们上文中的书本多，但也已经远远多于宇宙中的氢原子数了。代谢图书馆内的馆藏数量同样超乎常识。

如同随机庞杂的宇宙图书馆里包含了所有真实存在的书，代谢图书馆里同样包含了所有“真正”的代谢基因型，即那些真实存在于某种生物体内的代谢模式，而另一些并没有实际意义，只不过是乱码的书本而已。有的代谢基因型无法令生物获得能量，而有的则无法合成重要的代谢物质。好比一本书，虽然有的章节、段落或句子语意通顺、语法正确，但整本书却没有主旨，逻辑混乱。更有甚者，通篇连一句有意义的句子都难得一见，只有混乱无序的字母串。这些基因型所代表的代谢由缺乏关联的生化反应组成，它们的合成反应往往以对生物无用的产物分子大量囤积而告终。

如果你在宇宙图书馆里停留足够久，一定会发现一些在主旨、想法和创意上让你颇感惊讶的书。代谢图书馆里的馆藏在这方面也是一样。你会发现前所未有的生化反应、合成新颖小分子的表现型以及利用新能源的能力。换句话说，你会发现一些新的性状。

新陈代谢与生物进化几乎一样古老，不断进化的生命几乎一经诞生就开始探索这座庞大的图书馆。大自然早在10亿年前就创造了数量多得难以想象的生物性状，远远超出了实际需要。然而进化并没有因为这些早期的成就而骄傲自满、停滞不前。在数以万亿计的现存生物中，新的生物性状依旧以远远超出我们解读能力的速度不断涌现。某些新性状出现的时间还不到100年，对于整个进化史来说，这仅仅是一瞬间而已。

我们来认识一下五氯苯酚，人类第一次学会合成这种臭名昭著的分子是在20世纪30年代。它被作为防污涂料用于船体表面，同时也被作为杀虫剂、除真菌剂以及消毒剂。简而言之，五氯苯酚被用来杀死各种生物。五氯苯酚对人的肾脏、血液以及神经系统同样有害，此外，它还是一种致癌物质。不过，即使它剧毒无比，生命还是找到了方法耐受它的毒性，甚至把它作为美味佳肴。鞘脂菌属的细菌S.chloroplenolicum^[11]，顾名思义，能够利用五氯苯酚同时作为自己的碳源和能源，并且五氯苯酚是它唯一的食物来源。为此，它的基因组编码了4种催化用的酶，用以将五氯苯酚转化为像葡萄糖一样容易消化的分子，这相当于把生化武器变成了自己的战争口粮。

这种利用五氯苯酚的能力是S. chlorophenlicum特有的，但代谢的化学反应本身却不是。五氯苯酚代谢过程的每一步反应都可以在其他数百种乃至数千种生物体内找到。其中两步反应在某些细菌中起到循环利用多余氨基酸的作用，而其余的两步反应则会参与分解某些真菌和昆虫分泌的毒性分子，因为这些毒性分子的结构恰巧和五氯苯酚类似。进化就像一座由自动报警的洒水系统、气泵和聚氯乙烯管等组合而成的机械停车楼，它利用不同生物中已然单独存在的各种反应，重新组合出了独特的S. chlorophenolicum。也就是说，新陈代谢进化的本质在于重新组合。

生物体通过进化获得摄食人造剧毒分子的能力，这种现象在自然界并不鲜见。伯克氏菌属的细菌B.xenovorans能够大啖多氯联苯，而这种曾经被广泛应用在塑料制造和电气工业领域的化合物已经被明令禁止。还有一些细菌甚至能消化氯苯，后者是化学实验室普遍使用的一种剧毒有机溶剂。更极端的是，有的细菌甚至可以分解和吸收专门用来杀死它们的抗生素。能被细菌作为食物的抗生素中包括一些人造的种类，所以它们利用这些抗生素的历史并不长。

自然力量不仅能为无米之炊，把毒药变成生命的美味口粮，还能贤惠地废物利用。以氨气（NH₃）为例，你可能觉得它不过是家用清洁剂里刺鼻而难闻的那种气体，但它除了辣眼睛之外，还是一种剧毒的动物代谢产物。由于氨气易溶于水，所以鱼类可以直接把代谢的氨排入周围的水里，而后扬长而去。对于人来说，这就好比是排尿的过程。然而当3亿年前动物开启进军陆地的征程时，它们再也享受不到这种随时如厕的福利了。陆生动物亟需一种新的方式排出血液中的剧毒氨气。

这种新的方式可以在代谢图书馆里找到，那就是把氨气转化为毒性较低的尿素，直到今天，尿素依旧是我们尿液里的主要成分。尿素的合成反应包含了五步普通化学反应，远在削减氨气毒性的反应之前。尿素合成反应中的每一步反应都已经在不同生物体中存在，互不相干，井水不犯河水。

我们不知道动物学会合成尿素的确切时间点，不过相关的线索俯拾皆是。虽然现代多骨鱼，即硬骨鱼，不需要用转化代谢的方式来降低氨气的毒性，但是作为硬骨鱼的祖先，同样游弋在海洋里的软骨鱼早在硬骨鱼出现之前就已经学会合成尿素了，代表鱼类有鲨鱼和鳐鱼。大白鲨合成尿素的目的与人类稍有不同：它们不仅利用尿素作为氮元素的储备池，同时还用尿素保持自身的浮力和在海水中的平衡。你可能会想，如果硬骨鱼遥远的祖先能够合成尿素，那么在它的DNA中是不是可以寻得一些与合成尿素有关的蛛丝马迹。倘若如此，你的确没有想错：主导尿素循环反应的基因的确还存在于硬骨鱼当中，只不过它们在绝大多数情况下都不表达。这些沉默的基因在硬骨鱼体内就像牙牙学语时的我们，虽然能够认得些许词汇，却也是有口难言。

清除垃圾不如废物利用，而大自然尤其擅长后者。无论是氨气还是尿素，动物排出的含氮废物都是植物的肥料。而我们呼吸的每一口氧气也不过是植物光合作用产生的“废物”。每一克动物排泄物里都含有数十亿个细菌：人类排出的废物恰恰是这些微生物的无价之宝。粪便里的每种细菌都有自己独特的代谢方式，不管代谢模式是新是旧，都可以用于降解粪便里的有机分子，为细菌提供能量和所需的分子，使它们繁荣昌盛、生生不息。

代谢的进化不仅发生在适宜的环境里，在极端环境中也同样常见，如极端高温、极端寒冷、极端干燥、高度腐蚀性、辐射过量、极度高渗等。细菌作为个中典型，能够在沸腾的水里生息，也能在冰天雪地里泰然自若，既不害怕具有腐蚀性的硫酸，也对有着致命压强的深海毫无畏惧。为了能够在这些环境里生存下去，它们经历了无数次进化，而许多进化都与代谢相关。

如果没有这些进化，极端环境可以像这些细菌杀死我们一样，轻易地让细菌们毙命。以高盐环境为例，由于酶在执行自身功能时依赖水作为溶剂，高盐环境中的高渗透压可以令细胞脱水而死。为了弥补损失的水分，代谢进化出了一些独特的物质，比如四氢嘧啶和甜菜碱。这些名字古怪的分子没有水那么容易脱离细胞，能够在水分顺着渗透势离开细胞的时候作为水分子的替代物。它们可以维持蛋白质的溶解状态。而合成这些分子仅仅需要几步额外的化学反应，以及一些常见的物质作为原料，比如天冬门氨酸盐。把这些合成反应整合到你体内的新陈代谢中，你就获得了在相应的极端环境中立足的资本。噬盐菌（halophilic bacteria）——它的名字来源于希腊语“喜盐”（salt-loving），能够在浓度高达30%的高盐环境里存活，10倍于人类所能耐受的极限浓度。噬盐菌能够在盐晶体周围甚至晶体内部存活。

与其他生物比起来，可怕的极端环境倒显得有些不值一提了。掠食者和捕食者都是生物生存的大麻烦，尤其当你无从逃避的时候。由于无法移动，常见的植物基本都是其他生物的刀下肉，如昆虫、生活在地底的蠕虫、地面上的蛞蝓和食草动物都把植物当作盘中餐。植物无法通过行动进行防御，所以它们进化出剧毒的化学物质令动物避之不及。植物并不是这场化学战争里的唯一参与者，但确实是个中精英和翘楚，其中的原因大概正是因为它们哪儿也去不了。

毒性分子的合成需要植物整合特定的生化反应，所以这些防御性分子均来自植物经历的长期进化。其中一种分子名叫尼古丁，也是令许多人吸烟时如痴如醉的烟草植物合成物。由于其巨大的毒性，尼古丁也被一些农民用作杀虫剂。但最近一组德国科学家发现，植物才是这种杀虫手段的首创者。当他们人为地降低烟草植物内的尼古丁含量后，某些害虫开始对它们大快朵颐。这些昆虫对烟草的攻击更频繁，吞噬的叶片更多，生长更迅速。而对于烟草而言，它们在掠食者的攻击下失去了比普通烟草多3倍的叶子。

尼古丁只是我们现在已知的3 000多种植物碱里名声最响亮的那个。植物碱指一大类围绕氮原子构建的有机分子，包括咖啡因和吗啡，它们是植物的化学自卫武器。此外，虽然种类繁多，但植物碱也只是植物众多化学武器中的一种。其他的“化武”还包括涩味的丹宁，也就是食用不熟的水果时让你的嘴巴感到干涩的罪魁祸首。丹宁会与植物的蛋白质紧密结合，阻止它们在我们的肠道内被消化，这使动物对合成丹宁的植物心生厌恶而不愿意优先摄食它们。

最为臭名昭著的是一种叫生氰糖苷的化学防御物质，主要存在于非洲和美洲的主要粮食作物木薯和树薯中。如果不经由充分烹煮与浸泡除掉生氰糖苷，这些作物就会释放氰化氢，也就是齐克隆B^[12]中的活性成分，后者曾经被泵入纳粹奥斯维辛集中营的“洗浴室”里。如果你还在幻想大自然是一个诗情画意的秀丽之地，是伊甸园里的后花园，那么植物的生化武器可以立马把你天真可爱的愿景轰得灰飞烟灭。

上述生化武器分子都是对已有化学反应重新组合得到的产物，新的反应顺序让普普通通的原料转化为剧毒物质。反应的每一步都需要代谢基因型中一段特定的文本作为指导。

不同物种获得新代谢的方式十分类似，这些方式在大型的多细胞生物中也很常见，人类就位列其中。表现之一就是伴随着有性生殖出现的性状改变，有性生殖后代性状变化的原因主要是来自亲本的染色体发生随机组合和重新洗牌，所以我们每个人都是从异于父母的起点开始各自的生命旅程的。此外，DNA还会由于一些随机事件发生自发突变，包括紫外光子冲击以及代谢过程中产生的高能氧自由基损伤DNA分子中的化学链接。

由于有性生殖的“重新洗牌”只发生在高度相近的基因组之间，而任意两个人的基因组相似度都高达99.9%，所以上述两种检索方式在代谢图书馆里都算不上高效。打个比方，如果你只修改《哈姆雷特》中的30个单词，并不能把它改成一部全新的作品。另外，虽然变异可以创造出新蛋白，包括新的催化酶，但这种概率非常小，意味着纯粹依靠变异的进化过程将十分缓慢。

此外，代谢进化在大型、多细胞动物中进展缓慢还有一个原因。有价值的能量获取新方式和生物体新结构在种群中的传播范围与传播速度正相关。对于生殖周期为数十年，哪怕是数个月的动物来说，由于繁殖速度的限制，它们的种群都无法快速地实现进化。

即使面对无数的不利条件，包括人类在内的动物在代谢进化方面也并不是无所作为的。我们的身体能够降解药物，比如生活中常用的阿司匹林，化学家则称之为乙酰水杨酸。通过一种叫葡萄糖醛酸结合反应（glucuronidation），阿司匹林可以被修饰为毒性较低的产物继而随尿液排出。猫、鬣狗等掠食动物体内则缺乏这种代谢需要的酶。（所以下次在给你的宠物狗喂阿司匹林之前，最好先咨询一下你的兽医。）你可能会问，远在拜耳公司把阿司匹林这种药投入市场的20世纪80年代之前，我们的身体为什么要在进化中保留这种酶呢？回答这个问题的线索在阿司匹林的名字本身，“aspirin”取自一种绣线菊属植物——榆绣线菊（spiraea ulmaria）。这种植物和许多其他植物在很早以前就被用于止疼。不仅如此，含有水杨酸的植物曾是我们祖先采集的食物之一，因此，与鬣狗那样纯粹的食肉动物不同，作为杂食动物的我们需要一种降解水杨酸毒性的手段。

不过，在多细胞生物的世界里，人类根本算不上代谢竞技擂台上的种子选手，许多动物在代谢的不同方面都胜于我们。人类无法合成维生素C，所以许多人早餐时都要来一杯橙汁，而狗却能够合成自身所需的维生素C。虽然我们能从植物的种子，如大麦和玉米中吸收热量，而奶牛则可以消化和吸收植物茎秆中的纤维素。说句公道话，追根溯源，消化纤维素的神奇能力并不是奶牛自己的本事，而是由于它们体内的微生物：牛的4个胃里的细菌能够将巨大的纤维素分子分解成易于消化的葡萄糖。

这似乎暗示我们，进化的真正好手其实是我们星球上最小的生物：细菌。

细菌拥有强大的繁殖能力，它们的生殖周期只有数分钟，因而基因库的更新速度远快于我们。但是细菌具有的进化优势远远不止于此。为了让你能够理解人类和它们的巨大差距，我们可以想象有一个身高只有1.5米的小伙子，他一直希望能够加入高中的篮球校队。努力的锻炼和勤奋的练习对他的帮助杯水车薪。他的最大问题是没有合适的基因，而他最好的朋友只要踮起脚就几乎能够碰到篮筐。

而对于细菌来说，如果一个细菌想要与另一个细菌比肩，它们的出身可不是决定性因素。如果我们在这里讲的是一个科幻故事，这对好朋友拥有了和细菌一样的进化能力，那么你接下来将看到的一幕是：当这两个小伙子在他们喜爱的一家饭店吃饭时，一根细长的空心管子从高个子的体内伸出，摸索着伸向矮个子小伙儿。一旦两人被连接在一起，这跟管子随即把高个子的一小块DNA片段注入到矮个子体内。如果注入的片段中正巧包含了与身高有关的基因，那么学校的篮球队就有了一个新的大前锋。

这是一个基因水平转移的例子。可惜的是，落后的人类并不具备这种能力，而对微生物来说，这种现象简直是家常便饭。某些情况下，当两个细菌相遇，其中一个会向另一个细菌的方向伸出一根空心管道。当管道接触到另一个细菌时，一方面，它会通过收缩将两个细菌拉到一起；另一方面，细菌可以通过连接管道向临近的另一个细菌输送自己的DNA。

通过阴茎样的管道向另一个个体传输遗传物质的方式，很容易让人联想到有性生殖。但是细菌的“有性生殖”和人类有着天差地别。它们的交合与人类的不同，不以生殖为目的。基因交换中也不涉及整个基因组的重新洗牌，通常只是交换某几个基因。

细菌还能通过许多其他方式获得新基因。有些细菌可以在别的细胞死亡、破裂或吐纳出内部成分之后吸收外源性的DNA。与其说是阅读，不如说细菌不过是一个在字面意思上“啃书”的傻帽儿，它们除了一把把的纤维素之外什么都得不到，细菌所吞噬的外源性DNA大部分成了食物。只在极偶然的情况下，摄入的外源性DNA会结合到宿主的基因组里并表达出新的蛋白质。

病毒可以用自己的DNA制服比自己大数倍的细胞，插入宿主基因组的病毒DNA重新编程后把活生生的细胞变成了绝望的血汗工厂，成批生产毫无生气的病毒颗粒。在这个过程里，细菌的某些DNA片段会与病毒的基因组融合，使之成为基因转移的载体。这些携带细菌基因片段的新生代病毒离开菌体细胞，将会继续感染下一个倒霉的受害者，通过注入经过融合的遗传物质，将基因从一个细菌传递到另一个细菌。如果人类具有类似的能力，那我们那个高个子篮球选手只需要对着其他人打几个喷嚏，就能把身高的天赋整合到队友的基因组里。

如果所有的基因水平转移都不需要筛选，那么细菌的基因组势必不断扩大直到变得过于臃肿庞杂。过度冗长的DNA链脆弱易断，复制过程会白白浪费许多能量和原料。对大自然来说，浪费是不能容忍的罪过。幸运的是，由于基因融合和删除之间的平衡，过度冗长的基因组不会出现。基因删除是基因错误的副产物，是指细胞在修复和复制DNA的过程中切除错误基因。与每次只涉及一个碱基对的基因突变不同，基因删除往往涉及数千个碱基对和众多基因。只要基因删除没有累及必需基因，细胞就能够继续存活。非致死的基因删除时刻都在发生，它保证了只有有用的基因能够长久留存于基因组内，以及精简的基因组容量。

基因转移与有性生殖的另一个不同点在于，它不仅发生在亲缘关系相近的物种之间，还能够发生在面包酵母与果蝇和微生物与植物之间。尤其在微生物的世界里，哪怕两种微生物的种间差异大如人类和橡树，它们依旧能发生基因转移。这正是基因转移的强大之处，也是它能成就细菌在代谢进化中的霸主地位的最重要原因。物种之间的差异有多大，它们的代谢方式的差异就有多大。

基因转移通过从一个物种中获得的基因修饰另一个物种，让原本风马牛不相及的优良微生物基因能够融合，正如擅长巴洛克风格和流行唱法的不同微生物终能演绎出一曲风格混搭的乐章。由于不能挑剔或者选择所获得的新基因，而基因的融合随机发生在不同的基因组之间，所以只有部分基因修饰可以改进生物的性状。不过基因转移发生的频率远远超过我们的想象，所以生物进化出新性状的概率其实并不低。即便多数进化的结果乏善可陈，但是宇宙图书馆的书架上摆放了无数本书，在繁多的文字垃圾里依旧有数不清的杰作等待被发掘。

大自然的谱曲能力在人类的朋友大肠杆菌中体现得淋漓尽致，许久以前，科学家曾一度认为大肠杆菌的不同菌株是紧密联系的不同亚种。21世纪初，生物学家首次破解了多种大肠杆菌不同菌株的基因组密码，原本的期望是这些遗传密码高度相似，然而事实却并非如此。有两种大肠杆菌菌株的基因组差异超过了100万个碱基对，相当于它们全部DNA碱基对数量的1/4，意味着每个菌株与另一个菌株有超过1 000个不同的基因。

每过100万年——相当于人类在进化树上与黑猩猩分离至今的1/5，大肠杆菌的基因组就能获得大约60多个新基因，所有的新基因都来自水平转移。它们是基因融合中的成功者，还有很多失败的基因融合没能让细菌留下后代。

如今我们已经掌握了超过1 000种细菌的DNA序列信息，它们证实大肠杆菌菌株间的差异并不是特例，而是普遍规律。细菌基因组的大部分基因都是从别处交换得来的。你可能不会觉得奇怪，不过许多这些基因的起源的确难以追溯。要寻找某个特定基因来源的难度，无异于在国会图书馆中随手拿起一本小说并挑选其中的一小段，然后考证这一段内容在文学史上的影响。1 000多个菌种，甚至1 000种菌种的100倍，也只是由无数种细菌构成的多样性海洋中的区区一滴水而已。更多的细菌甚至还没有被我们发现，而每一种细菌都可能是其他细菌基因的贡献者。

由于细菌基因组中只有大约1/3的基因与代谢有关，所以基因组改变和代谢改变并不总是一一对应的。基因组编码的蛋白质还有许多其他作用，如帮助细菌移动、转运合成所需的物质等。那么如果基因转移主要涉及这些与代谢无关的基因会如何呢？生物进化在代谢图书馆里的步伐将难以深入，进而导致多数生物的代谢反应高度相似。

实际情况是怎样的呢？几年前，在面对数百种DNA序列已经被阐明的细菌时，我就这样问过自己。这些遗传信息是前人在过去几十年里的研究所得，这项研究发现了数千种独特的酶以及编码它们的基因，让我们能够通过基因辨认相应的酶，并通过酶预测生物具有的生化反应。换句话说，我们可以通过基因组序列预测某种生物的代谢基因型，并对不同生物的代谢基因型进行比较，而这正是我所做的工作。

图3-2以简化的片段对两种生物中的10种酶的代谢基因型作了比较，展示了用这种方式比较代谢基因型的简便性。10种酶中有4种是两种生物都无法合成的，在图中以灰色的0表示，第一种生物编码了其中6种，如你所见，它的基因型数列中有6个1，而第二种生物可以编码其中的5种。

图3-2　基因型差异

我们记录了至少被两种生物中的一种所合成的酶的数量（在这里是6），以及只被其中一种生物合成的酶的数量（在这里为1），然后再计算两者的比值（也就是1/6）。如果两者的比值为0，意味着两种生物编码的酶完全相同。如果该比值为1/2，那就意味着其中一种生物合成的酶中有一半能够被另一种生物合成^[13]。而如果这个比值为1，那么两种生物中的任何一种能够合成的酶都不会出现在第二种生物体内，两者的代谢差异为可能达到的最大值。这个取值范围为0～1的比值，反映了两种不同的生物在酶学上的差异程度，鉴于这样的描述不太简便，我们姑且以字母D代表这种差异或差距。

如果让你用纸和笔比较数百种细菌的基因型，其中每个基因型都以数千种反应对应的数列编码，其枯燥程度不言而喻，好在忠实可靠的计算机能够在眨眼间完成这些工作。虽然我早就知道细菌的基因组间存在高度差异，但当我要求计算机计算数百对细菌的D值时，我还是被近亲菌株之间的代谢遗传差异震惊了。13种大肠杆菌的不同菌株之间有超过20%的酶互不相同，任意一对微生物之间的平均酶差异达到50%。我还曾经怀疑过是否生活环境相近的细菌，比如都栖息于土壤或都栖息于海洋，会由于营养条件相近而拥有类似的代谢体系。我又想错了。相似的栖息地并没有能够缩小细菌之间的D值差距。

这项工作的结果凸显了自然界在基因重新组合上的惊人尺度。在地球上的每个角落，剧烈的基因拆分和重组都在不断发生。只要是有微生物存在的地方，无论是在海洋深处还是荒凉的山巅，无论是在滚烫的热泉还是寒冷的冰川，无论是在肥沃的平原还是干燥的沙漠，甚至是在我们的体内或体表，生命都在尝试每一种可能的基因新组合，重新解读、重新编译，而后重新布局代谢遗传，片刻也不停歇，造就并不断提升着代谢的多样性。

如果没有读者，一本书就不过是一堆沾染墨水污迹的纤维纸片而已。同样的道理，代谢图书馆里的基因馆藏需要被阅读才能体现它们本身的价值，即每本书所对应的代谢模式应可以代表某种生物可以利用哪些营养物质，又能够合成哪些分子。我们回忆一下某些实实在在、可以被看见的生物表现型，许多代谢表现型如每天的阳光一样朴实可见。比如黑色素，存在于我们体内，可以保护我们的皮肤免受太阳辐射的伤害；存在于在狮子的毛发中，可以帮助这些大猫在狩猎的时候模拟周围的环境；同时它也是章鱼喷出的墨水之所以是黑色的原因。与黑色素类似的分子都是代谢的产物。

其他的色素分子也给树叶、龙虾、花朵以及变色龙染上了相应的颜色，帮助它们防御、求偶，有时甚至根本没有其他的用处。不过代谢表现型并不局限在肤浅的视觉水平，它还存在于我们的眼睛看不见的生化层面，继而不断影响着自然选择。代谢表现型最重要的作用在于保证生物的存活率，归根结底，是与那60多种比色素分子重要得多的基本物质合成有关的能力。存活率，是一种对基因表现型的优劣进行衡量的方式，相当于对一个复杂的故事进行主旨概括，或是一场庭审中的最终判决：如果无法合成所有的基本生命物质，那么就判死刑，并立即执行。任何发生突变致使基本生命物质合成受阻的生物，不是无法存活到可以繁殖的年纪，而是根本无法存活。

为了理解决定生死的表现型，我们必须读懂生物的代谢基因型。这并不容易，不仅是因为基因文本的功能含义要比文本本身复杂得多，我们必须从生物整体上进行把握，考虑不同基因之间的协同效应，还因为我们的大脑并不擅长解读化学语言。幸运的是，我们可以利用计算机与编程演算，协助我们完成这项工作。

基因型可以告诉我们代谢中涉及哪些催化反应，反应中需要消耗哪些原料分子，又能够合成哪些产物。在解读基因型之前，我们必须首先确定营养物质的来源，俗话说得好，“巧妇难为无米之炊”。然后我们需要检验某种生物的代谢能否利用这种营养物质合成生物必需物质，譬如色氨酸。这对于能够在极端环境中生生不息的生存大师们来说并不难，比如大肠杆菌。这些极端的环境中营养物质稀缺，有时候只有一种糖类可供生物作为能源和碳源。

我们会从环境中存在的营养物质入手，罗列一张清单，枚举所有营养物质通过代谢反应能够获得的产物，然后在生物的基因组内寻找消耗这些产物的代谢反应，并列出这些反应的产物。我们需要重复这几步，直到找到一个或多个反应的产物中包含色氨酸。如果最后没能找到这样的反应，那么这种生物的代谢反应就无法合成色氨酸。

接下来，我们可以把注意力转移到另一种生物基本物质上，可能是另一种氨基酸或是DNA的4种基本单位之一，重复上述整个步骤，以检验每一种构建生物的基本物质是否包含在该物种的代谢反应中。只有能够合成所有生物基本物质的物种才有可能存活。

所有这些工作都是在计算机上完成的，如果使用恰当，计算机运算的速度更快、成本更低，甚至比传统的实验结果更可靠。但正如纸上谈兵并不等于可以攻城略地，对生物学家来说，任何没有经过实验验证的计算结果都需要谨慎对待。正如工厂会对出产的产品进行随机抽查，我们也需要抽选一种已知基因型的生物，将其培养在成分已知的环境中，然后静观其变。其实也可以说是冷眼旁观，任它们自生自灭。这种工作早就已经有人做过了，他们实验的对象包括了数百种大肠杆菌的变种菌株，这些变种大肠杆菌都通过基因工程敲除了某一种酶。实验结果与计算机演算结果高度吻合：超过90%的菌株实验与演算结果相符。

大多数知道这项演算实验的生物学家都把它当作理所当然，并不觉得这项工作有多稀奇。但事实上，这远不止是稀奇而已，能够通过计算机预测生物生存能力的技术具有深远的开拓性意义，它是数百年的传统生物学研究与现代计算机科学结合的产物。达尔文以及在他之后的几代生物学家大概做梦也想不到，有朝一日世界上会出现这样的技术，而计算机技术对于我们理解代谢进化，理解大自然如何创造出了新的代谢模式至关重要。

对于任何已经了解其代谢功能的生物而言，在任何成分已知的环境中，无论是极地土壤、热带雨林、海底深渊，抑或是山地草甸，我们都可以用这种算法进行模拟。这种算法同样适用于评估代谢表现型的任何层面，比如预测代谢反应中能够合成的所有分子。不过，在能够进行演算的所有方面中，合成生物基本物质的新手段与利用能源物质的广泛适应性是最重要的层面，而生物存活率则是这一切的根本意义所在。新的代谢能力是不断驱动生命拓展最前沿阵地的引擎。

利用新物质作为燃料的能力之所以如此重要，其原因非常简单：无论一种代谢方式在今天看来有多成功，由于世界的瞬息万变，它几乎注定会在未来的某一天掉下神坛，正如将随着不可再生的化石燃料日渐枯竭而凋零的全球经济。环境中的化学成分也是一样，营养物质总是旧去新来，从来不会一成不变。依赖某几种特定营养物质的生物容易走入进化上的死胡同。生命如果想繁衍下去，就必须寻求新的代谢方式。万幸的是，许多不同种类的分子都可以为生命体提供能量和必需的化学元素，有我们熟悉的葡萄糖和蔗糖分子，也有一些可能相对陌生，比如剧毒的五氯苯酚。

只需要较少的几种原料分子，就可以组合出数量惊人的代谢类型。它们的可能数量相当巨大，不过并不是所有这些代谢表现型都能保证生物的存活。如果想对这个计算题有个大致的印象，我们来看图3-3中列出的100种潜在的燃料物质。然后，我们来统计一下某种你感兴趣的动物、植物或细菌是否能够利用某种特定的物质，比如葡萄糖。如果这种生物可以利用葡萄糖合成所有其他所需的基本物质，就把葡萄糖标记为“1”，否则标记为“0”。接着，我们对下一种物质重复同样的步骤，直到所有物质旁边都有相应的“0”或“1”标记。这个清单中的每一个“1”都意味着你考量的生物能够只利用对应的物质合成所有必需的基本物质。

图3-3　代谢表现型

完成编码后得到的“0”“1”数列描述了给定的新陈代谢利用不同燃料分子维系生命的能力。这是表达一种生物代谢表现型的精简方式。像大肠杆菌这样的代谢通常能够依靠数十种不同的碳源生存下去，因此它们的表现型数列中有很多“1”。与之相对，某些精专的生存大师只能利用为数不多的碳源，所以它们的表现型数列里多数都是“0”。

在计算100种能源物质能够组合出多少种代谢表现型前，我们只需要牢记，对于每一种物质而言，生物体只有能够或不能够依靠这种物质生存两种结果，除此之外没有第三种可能，因此所有的可能代谢表现型是100个2相乘，也就是2¹⁰⁰。这个数量超过了10³⁰，也就是1后面跟着30个零，虽然和现实中实际存在的可能表现型数量相比还有差距，但已经是一个天文数字了，因为这数字已经比银河系中的恒星数量要多了，如果我们非要拿来比较的话，后者仅为10¹¹，也就是“区区”1 000亿。

现在你可能意识到了：我在上一章就提到过，现代综合进化论的缺陷是它过于忽视生物高度复杂的表现型。现在看来这可不是我在开玩笑。

表现型的巨大数量同时也意味着代谢进化的巨大潜力。图3-4中给出了一个例子。图中左侧展示了某种代谢表现型能够利用的碳源，但是这种代谢方式无法利用乙醇，因此在乙醇旁标记为“0”。无论是不是通过基因转移获得的，一个新的基因可以通过改变基因型进而让表现型具有代谢乙醇的能力。如果该变异使代谢乙醇成为可能，我们就把“0”改为“1”。由于每一种新出现的代谢表现型都可以用这种标记方式表示：通过把代谢表现型中的某个“0”改成“1”，所以理论上来说，代谢表现型的数量越多，生物的进化潜力就越大。

图3-4　代谢进化

由于代谢类型的数量巨大，远远超过宇宙中的氢原子数，所以要腾出一块地方，专门建一栋收纳所有表现型文本的图书馆显得异常艰巨。此外，如果要在这个图书馆里迅速检索到某册馆藏，那么馆内的收藏必须高度有序。我的办公室里有个小图书室，我在那儿只要几秒钟就可以找到以前买的那本《物种起源》，作者正是达尔文。不过，如果要在一个常规大小的大学图书馆里边晃悠边找某本特定的书可就没那么简单了。而如果《物种起源》被人放错了书架，那么可能就永远消失在这个图书馆里了。同样的错误在一所超宇宙数量级的图书馆里导致的后果只会更糟糕。宇宙图书馆里很可能藏着解开长生不老之谜的秘籍，就算没有，也肯定有配方教你如何煮出完美的火鸡填料。但由于图书馆实在是太大了，如果我们不知道这些书摆在哪里，那么我们可能永远也找不到。

一种相当简便的图书馆归档方式是把书按照内容的相关程度摆放。人类的图书管理员在归类不同印刷版次的同一本书时就会用这种方式。如果代谢图书馆在归类书籍的时候也遵循相同的原则，那么越相似的文本之间应该距离越近。但在讨论归档之前我们首先要解决一个问题：采购或者制作这个图书馆需要的书架将是一件痛苦的活计。

在现实的图书馆里，每本书都与另外两本书相邻，左右各一本，即使算上书架上下的书，那么一本书最多也只与四本书相邻。但代谢图书馆里的每本书会与多少本其他的书相邻呢？这里我们可以回忆一下代谢图书馆里那些每本由5 000个字母组成的馆藏。每本相邻的书都只相差一个字母，相邻的代谢基因型之间只差一个生化反应。（两个代谢基因型之间的差异无法比一个更小，而当两者差距进一步拉大时，它们就不会被相邻摆放了。）

我们假设，在与代谢图书馆中任何一本书相邻的其他书中，第一本与原书的第一个字母与原书不同，第二本则是第二个字母不同，每一本相邻的书都依次与原书对应的字母不同，直到最后一个字母。换句话说，代谢图书馆里的每本馆藏不是与两本，也不是与四本，而是与上千本书相邻，具体的数目取决于生化反应数量的多少，相邻的馆藏之间只相差一个字母，也就是一个生化反应。能够满足如此陈列要求的书架可不是那么容易找到的。

为了帮助你理解这种情况有多复杂，我们先从更简单的情况开始讨论，最简单的化学世界莫过于只有一种化学反应。在那个世界的代谢图书馆里只有两本馆藏。一本的内容是“1”，由唯一的一种化学反应构成；而另一本是“0”，代表该种代谢类型不具有该反应。图3-5中a图的两个端点和连接两者的直线就代表这种情况。

比直线稍微丰满一点的世界由两个化学反应构成，相应的代谢图书馆规模将扩建到4（2²）种可能的馆藏。其中之一同时拥有两种反应（11），有两种代谢型拥有两个反应的其中一个（10，01），第四种代谢型则同时缺乏两种反应（00）。如图3-5的b图所示，这种情况下，每个代谢基因型就如同一个正方形的四个顶点。

可能你已经明白我接下来要说的事了。下一个级别的世界里包含了三种化学反应以及8（2³）种可能的代谢类型，我们用一个立方体的顶点表示这8种代谢。而在一个包含4种化学反应的世界里，我们能够得到16（2⁴）种可能的代谢型，但是哪种几何图形能够与之对应呢？随着例子中化学反应的数量从一到二再到三，对应的代谢型分别占据了一条直线、一个正方形和一个立方体的顶点，不同的几何图形又分别对应一维、二维和三维空间。尽管四维或者更高维度的空间很难用视觉图形的方式呈现，但和它们打交道依旧是数学家们的家常便饭，因为他们能够将已有的几何规则演绎到这些多维空间中。

就像四边形和立方体，我们所寻找的几何图形的每条边长都应当相同，不同的边相交需要形成一个恰当的角度。如此我们便能够找到一个四维的超立方体。图3-5中的d图就以几何技法展示了超几何体在平面上的视觉效果。具有四维空间的超立方体有16个顶点，每一个顶点对应一种代谢类型，即从0000到1111，不过我们并没有在图中一一标记出。

图3-5　超立方体

这种绘图的方式在面对五维空间时就显得力不从心了，遑论更高维的空间。不过虽然把高维空间的图形视觉化有点不切实际，但是它们依旧遵循与三维空间的图形一样的原则：边等长、恰当的角度以及与每一种代谢型相对应的顶点。符合这些原则的高维度几何图形，其性质恰好符合代谢图书馆的需要。

一个正方形有4个顶点，在立方体中这个数字会翻倍到8，而在一个四维的超立方体中顶点数量会变为16。空间每增加一个维度，对应几何体的顶点数量就翻一倍。当我们讨论五千维空间的时候，顶点数量就达到了2⁵ ⁰⁰⁰个，也就是代谢图书馆的规模。换句话说，我们可以把这些馆藏摆放在一个五千维空间里的超几何体的顶点上。面对五千维空间，身处卑微三维空间的我们几乎束手无策，这就是为什么代谢图书馆里不能用现成的普通书架。它需要一个五千维的解决方案才能维持馆内的运营。

除了馆藏的摆放问题，超几何体还可以很好地解决馆藏之间的相邻问题。在相对简单的三维空间里，每一本图书馆的馆藏，也就是立方体的每个顶点，都与另外三个顶点相连。我们以其中一个顶点为例，比如图3-5 c图中的数列100，你可以沿着从该点伸出的边到达与100相邻的顶点。与之相邻的顶点要么比100多出第三种反应，对应的代谢编号为101；要么比100多出第二种反应，对应的代谢编号为110；或者缺乏第一种反应，对应的代谢编号为000。所有相邻的顶点：101、110以及000，都与100仅相差一位数字。立方体中任何一个顶点的情况都与例子中的这个顶点一样：它们都与三个其他顶点相关联。

类似地，五千维的超几何体中，每一种代谢型都和与维度数一样多的其他顶点相邻，也就是5 000个。从每个代谢型所在的顶点出发，你有5 000个方向可以选择，只需要跨出一步，你就可以到达5 000个与之关联的顶点中的一个，而且相邻的代谢型都只相差一种化学反应。要么多一种，这种情况下某一个编号中的0就是另一个相邻编号中的1；要么少一种，也就是某个1变成0。

生物进化的过程就像参观代谢图书馆，基因删除和基因转移就是生命在图书馆里移动的方式，让它们从一本馆藏跳到下一本，而通常就是相邻的那一本。每本书相邻的所有其他书可以被称为一个“社区”（neighborhood），对于生物进化来说，这个社区如同现实生活中真实的城市社区，对人们的生活而言，具有同等的重要性。城市社区的有用之处体现在它的便捷性上：人们需要的东西都在几步之遥，代谢图书馆的“社区”也是一样的道理。进化只需要对基因型进行微不足道的一点修改，就可以搬进自己邻居的家里。不过城市社区里的居民只能沿着东、南、西、北四个基本的方向行走，而进化有5 000个不同的方向可去。（这个复杂的场面你最好连想都不要去想。）因此，一种代谢型身处的社区肯定比你所在的小区有趣且丰富得多。我们很快就将看到，代谢图书馆惊人的多样性在进化的创造性中具有的重要性。

随着时间的推移，某种生物基因组中积累的改变越来越多，它也渐行渐远，进而到达图书馆内距离更远的书架。为了估算距离，我们需要寻找一种度量的手段。没有度量的能力，我们就无从得知进化如何周旋于不同的书架之间，图书馆就像一个迷宫，我们将迷失在毫无意义的书堆之间。幸运的是，我在研究中所用的基因型差距值D可以胜任度量的工作。D值能够代表图书馆中两个代谢文本之间的距离大小，事实上，它已经告诉我们某些生物的代谢型相距甚远。除此之外，它为我们提供的另一个洞见才是重点：代谢进化能够在代谢图书馆中穿越惊人的距离，而许多进化的文本不管披着何种外衣，它们诉说的故事寓意都是相似的。

终有一天我们将能够破译数以百万计的代谢文本，但是对于超宇宙数量级的代谢图书馆来说，这也不过是沧海一粟，甚至仅仅是宇宙中的几粒尘埃而已，代谢图书馆里的馆藏远远超过地球上所有曾经存在过的生命的总和。尽管已经经历了38亿年的进化，生命依旧只是徘徊在图书馆的某个角落。

在生物进化的数十亿年间，大自然完全不需要顾虑会在宇宙图书馆的下一个拐角遇到什么样的新馆藏。但是如果人类希望理解图书馆，而不是在其中漫无目的地游荡，我们就要学会在图书馆里寻找那些有意义的生命文本。不仅如此，我们还要学会对已知的文本进行分类，如同杜威十进制图书分类法^[14]或是美国国会图书馆分类法^[15]那样，先按照不同的主题进行归类，如艺术史、经济学、语言学……然后再以更小的类别细分，比如语言学中还可以分为罗曼语、德语、斯拉夫语等。代谢的表现型，也就是代谢基因文本的具体含义，是代谢图书馆天然具有的分类方式。代谢图书馆里的馆藏比现实图书馆中的书要多得多，不过这仅仅是因为代谢图书馆本身的规模过于庞大。

分类法就如同一张探索代谢图书馆的地图，我们如果想要某种表现型，那么一张基因型-表现型地图可以指引我们去哪里寻找它的基因型。如果没有这张地图，我们就无从得知题材类似的馆藏是摆放在一起还是散落于图书馆内各处，虽然在人类的图书馆里它们总是被安排在一起；我们也不知道同一个书架上是否会陈列主题不同的作品，凡此种种。由于没有图书管理员，所以我们需要像古埃及时期游历世界绘制大陆形状的航海家们一样，通过自己在图书馆里游荡和探索亲手绘制这幅地图。代谢图书馆巨大的规模使得我们几乎不可能摸清它的每一本馆藏，不过我们依旧可以描绘大陆、山川、河流、湖泊以及沙漠的轮廓，以期能够从模糊的形状里窥得壮美山河的蛛丝马迹。

但是该从哪里着手，又该沿着哪里探索呢？

首先，我们需要找一片拼图来为我们指路。以任何一种代谢表现型为例，比如依靠葡萄糖存活的代谢性状，假设如果代谢图书馆内超过10¹ ⁵⁰⁰个代谢文本中只有一种能够表达这种性状会怎么样？如今地球上的细菌总数大约是5×10³⁰个，这个数量十分巨大，1后面要跟着30个0。我们可以假设自从生命出现起，每一个细菌以一秒一种的速度尝试新的代谢模式，那么在已经过去的将近40亿年里，它们总共只尝试了大约10⁴⁸种代谢模式。细菌们随机找到那种仅有的、能够利用葡萄糖进行代谢的概率微乎其微，还不到1/10¹ ⁴⁵⁰。这个概率小得几乎没有任何实际意义。换句话说，这种盲目的搜寻方式最终将无法令细菌获得相应的性状。

一方面，寻找到某种特定性状的概率是渺茫的；另一方面，生命表现的多样性表明，进化寻找新性状的能力无须置疑。这也意味着上述假想的情况是错误的。代谢图书馆中包含葡萄糖的文本肯定不止一本，很可能有许多能够利用葡萄糖的不同代谢模式。

为了找到这些代谢文本，我们来模仿一下进化曾经做过的事：尝试探索图书馆和编辑基因组，也就是对基因组进行一系列删除和转移，消除或增加某些基因、酶及生化反应。从哪里开始入手其实并不重要，我们可以选择代谢图书馆里任何一个馆藏，选择任何一本包含葡萄糖或者其他能源物质代谢的文本。

现在我们从一个包含葡萄糖代谢的代谢文本开始，随机删除一个文本中已有的反应，或者向文本中加入一个已知的生化反应。这个经过修改的文本在面对大自然的审阅时，得到的回复往往简单粗暴：生或者死。但是作为科学家，我们不用如此循规蹈矩。我们能够通过算法解读代谢文本的含义，如果结果显示新的文本所代表的代谢类型不能利用葡萄糖维持存活，那么就返回原始文本，重新删除或添加一个生化反应。不要忘记，可选的目标基因有5 000种之多。只要经过修改的代谢依旧能够利用葡萄糖，那么这种修改就可以继续下去，接着添加或删除第二个基因，演算对应的表现型，再评估，如此循环往复。

也就是说，我们从某个起点开始，首先到达与它相邻的文本，再到相邻文本的相邻文本，而后再到相邻文本的相邻文本的相邻文本，直到我们弄清楚在不改变代谢表现型的前提下，即对葡萄糖的利用能力，能够到达的极限距离。由于文本的每一次改变都是随机的，所以在代谢图书馆中的这种移动是一种随机游走（random walk），就像一个走出酒吧的醉汉跌跌撞撞地在路上晃荡，碰巧撞进了自己的家门，只是有一点不同：在代谢图书馆里的每一步都必须踩在主题相同的文本上，也就是沿着相同的表现型前进。

如果只有一种代谢类型里包含葡萄糖代谢，由于它没有所属的“社区”，那么通过随机游走无法到达任何地方，我们只会停在原地止步不前。不过即便与某种表现型对应的文本不止一本，但只要它们散落在图书馆内不同的角落而没有相邻，我们同样无法从其中一本馆藏出发，直接跨越其他代谢抵达同类型文本。哪怕这些零星的文本聚集在一处，随机游走的脚步也不一定会走得更远。作为起点的文本可能还有几个不多的邻居，但是这些邻里未必有着它们自己的邻居。

只有当同一主题的文本具有相当的数量时，我们才能循着它们探索整个图书馆。不过如此一来我们又将面对一个新的问题：计算量。计算一个代谢文本的含义不算什么大事，但是如果要分析随机游走过程中的数千个文本就没那么容易了，更不要说随机游走中前进的每一步都有数千种不同的可能性。普通的家用计算机大概需要数年甚至数十年才能完成类似的计算。利用互联网连接的一个计算机集群能够令我们获得更高的计算速度，但其巨额费用也令人难以承担。

在度过漫长的攻读博士学位的阶段后，我成了一名博士后并最终在美国的一所研究型大学被授予终身教授职位，在这个过程中，资助进化研究的经费日渐枯竭、每况愈下。研究经费的匮乏正好与我远在欧洲的家人的患病撞车，所以那一年，当一份来自瑞士的工作邀请摆在我面前时，我其实早已做好了跨过大西洋、回到故乡的准备。

一直以来我都知道，瑞士是世界科学的引领者之一，瑞士科学研究的产量惊人、水平拔尖。而科研成功的背后离不开其世界一流的公共教育体系，对学术研究的慷慨资助以及宜人的居住环境。我为不得不离开在美国一起研究学术的同事们而觉得遗憾，同时又对能够进入瑞士的科研圈感到诚惶诚恐。而最重要的是，这份工作不仅能够从资金上支持一个计算机集群，同时也足以维持运营一个现代化的实验室。更妙的是，我能够在世界范围内招募不少和我有类似想法的研究同行。这份工作让我不敢再有别的奢求。

2006年一个天高气爽的秋日，我坐在自己的办公室里，它位于苏黎世大学一栋外形简朴优雅的建筑内，外墙的玻璃和金属在阳光下反射着微光，勾勒出大楼的轮廓。那天，一个年轻的葡萄牙人走了进来，他长相英俊、说话轻声细语，深褐色的眼睛里闪着好奇的光芒，他礼貌地笑了笑之后，告诉我说他叫若昂·罗德里格斯（Joao Rodrigues）。

若昂一直在研究物理学，同时也发现生物学中有许多亟待解决的问题。他在寻找一个新的挑战，希望能够通过打破两个学科之间的壁垒获得自己的博士学位。若昂对生物学的了解有限，但他具备很多生物学家没有的本事：他十分擅长数学和计算机编程，也亲自操刀过许多大型和复杂的演算项目。在浏览他简历的时候，我简直抑制不住内心的狂喜。若昂拥有的能力恰好是探索代谢图书馆所必需的。在对他的面试中，我情不自禁，与他分享了我对自然进化的见解。幸运的是，我们一拍即合。我看到他的眼神里闪着光。最终，若昂欣然接受了这份工作。

在我的实验室里，若昂的学术背景不仅不算特殊，反而是个中典型。这里的研究人员来自十多个不同的国家，有美国以及欧洲、亚洲和澳洲的国家，他们的研究领域各异，包括生物学、化学、物理学和数学。这一切都是刻意而为，因为我们所面对的难题需要不同领域协同合作，因此我喜欢把我们的工作比作进化本身：研究也需要与时俱进，将各种传统研究方式进行重新组合——不是酶的组合，而是学术技能，这将大有助益。

我们搭建的由100台电脑组成的计算机集群依旧不能使我放心，我担心其计算速度依然不足以让我们离开代谢图书馆里的第一个书架，不过若昂的计算机技能像魔法一样让我印象深刻。他巧妙地提高了计算机的工作效率，使得它们的计算能力提高了数倍，最终把我们远远地送到了图书馆深处。

若昂的演算始于一种广为所知的代谢：大肠杆菌代谢葡萄糖，它能够以这种单糖为原料合成所有必需的60种基本物质。为了验证大肠杆菌的代谢方式是否独一无二，若昂首先设计了1 000多种大肠杆菌的“邻里代谢”，它们中的每一种都与大肠杆菌的代谢相差仅一个生化反应。如果大肠杆菌的代谢是一本利用葡萄糖合成所有必需物质的说明书，那么这些设计出来的代谢就是这本说明书最接近的山寨版本。首要的问题在于：这些人造的代谢模式是否具备所有利用葡萄糖合成必需物质的信息？

经过演算若昂很快发现，不是一个、两个或者三个，而是数百个大肠杆菌的“邻里代谢”能够依靠葡萄糖维系生命。这个发现说明了一个简单而重要的结论：认为大肠杆菌代谢葡萄糖这个性状独一无二是一种错误的偏见，基因型所在的社区里包含众多类似的基因型。但是更让我们吃惊的发现还在后面。

若昂利用大肠杆菌作为起点深入代谢图书馆的探险，把他引向了距离这个起点越来越远的地方。演算的目的是为了测试我们能够以这种方式深入到图书馆的何处：我们希望从一种能够支持生命存活的代谢到达与它相邻的代谢，再从相邻的代谢到与之相邻的代谢，依此类推，同时保持生物利用葡萄糖的能力。在保证主题不变的基础上，代谢基因型能够被编辑的最大限度是多少呢？当若昂给我展示计算结果时，我的第一反应是不相信。他找到的距离最远的代谢，也就是D值最高的代谢，与我们开始时的大肠杆菌代谢仅有20%的相似性。从算法的角度来看，我们几乎已经穿过了整个图书馆，那可是相距最远的馆藏之间80%的距离。在这个距离上，只要再深入一步，我们就找不到包含葡萄糖代谢的文本了。

因为担心单一的实验可能不具有代表性，我要求若昂再多执行一些随机游走的计算，一共1 000个。对每一个基因型的运算都以保证相同的代谢为前提，演算可能到达的最远距离（D值），对相邻基因型进行尽可能多的尝试。这不是不可能的，因为这座图书馆里最不缺的就是岔路。当结果返还到我手中后，我又一次被震惊了。所有的随机游走都到达了和第一个结果几乎一样远的位置。每一个结果与原始大肠杆菌的代谢模式的差距都几乎达到了80%。

我们实验室的研究员找到了1 000多种与大肠杆菌代谢基因相差巨大的代谢模式，它们唯一的共同点只有能够利用葡萄糖作为单一碳源和能源进行合成代谢这一点。如果我们继续下去，肯定还能找到更多类似的代谢型，多到我们数不过来。不过我们后来终于学会了如何估计某些代谢型在图书馆内的数量，比如包含2 000个代谢反应、能够利用葡萄糖的代谢文本大约有10⁷⁵⁰种。

不要说图书馆，哪怕是仅仅包含葡萄糖代谢的文本就已经是一个超宇宙常数了。代谢图书馆里堆到天花板的那些书，其实不过是在用不同的方式诉说着同一个故事。

万万没想到的是，我们在探索过程中还发现了这座图书馆的一个更诡秘的特征。那数千个随机游走的算法并没有终结在文本内容相同的书堆中，也就是一小群类似的代谢反应模式里。随机游走沿途经过的所有代谢模式，不论是与原本的大肠杆菌还是其他模式相比，都一样天差地别。每种代谢基因型所编码的代谢模式，包含的生化反应都各不相同。不像现实中的图书馆会设置历史书籍区或科学书籍区，代谢图书馆并没有严格地按代谢的类别划分区域。

最让我们惊讶的是，当我们以任意一种代谢模式作为新起点，以保证生物的存活为前提，以保证某种特定的性状不变为前提进行随机游走时，我们最终总是能找到一些类似的文本，而不论它们离起点有多远。这似乎意味着，图书馆中主题相同的馆藏相互联系，形成了一张网络，我把这张网络称为基因型网络（genotype network）。它看起来可能有点像图3-6中那张由直线构成的网络，整个矩形即代表代谢图书馆，而其中的线段将同一个社区的文本（图中的圆圈）连在一起。这张图只能作为视觉上的辅助，以二维代替五千维，以有限的圆圈代表难以计数的文本，不过除此之外，我们暂时还没有更好的办法来演示如此诡异的图书馆。

图3-6　基因型网络示意图

在一座普通的图书馆里，你很有可能在历史图书区找到一本有关查尔斯·达尔文的书，当然你也可以在传记图书区找到类似的书。而如果在一所采用美国国会图书馆分类法的大型学术图书馆里，你应该能够在QH区（代表“科学：自然史，生物学”）、DA区（“世界史，不列颠”）、GN区（“人类学”）、PR区（“英国文学”），甚至BL区（“宗教，神话，理性主义”）找到类似的书。但是在代谢图书馆的组织原则里，你找不到一丝这样分区的痕迹，你也找不出两本分别在HM区（“社会学，概论”）和BT区（“教化论”）的书有何关联，除非你沿着“达尔文生平”这个线索，循着一本又一本相邻的书在图书馆内前进。没有这些以不同口吻和角度描写达尔文的馆藏作为线索，你很快就会迷失在浩瀚的书海里，寸步难行。

我们在代谢图书馆里正是这么做的。含义相同的无数文本在图书馆内就像散布在宇宙中的星辰，中间隔着广袤的未知空间。但实际上它们并非处于孤立状态。它们之间以城际高速相连，高速路上灯火通明。

到这里为止，我们仅仅对一个主题的馆藏完成了分类，即以葡萄糖为维生物质的代谢，除此之外还有许多其他的主题。有的代谢类型能够以乙醇、乙酸以及数十种其他物质支持生命。我们以相同的归档方式对它们进行了制图：以某种代谢表现型作为前提进行随机游走的演算，如以能够利用乙醇为例，直到我们无法在保有这种性状的基础上再前进一步。我们针对80种不同的物质进行了计算，而每次我们都能看到类似的模式。建立在同一种物质代谢基础上的基因型的代谢相似度可以仅为20%，正是它们在代谢图书馆中连成了一张宽广而稀疏的网。

有了这个普遍规律作为初步结果，我们便斗胆将目标转向了能够同时利用多种物质维生的代谢类型，如能够同时利用乙醇、葡萄糖以及乙酸。（能够利用多种物质的优势显而易见：生物不至于因为其中一种物质耗尽而无法生存。）由于这种代谢方式更复杂，所以会不会只有图书馆内某个角落里为数不多的代谢型能够实现？事实证明我们又想错了。我们研究了能够利用5种、10种、20种乃至60种不同物质的代谢型。每一个随机游走的演算都到达了距离起点相当远的位置。即便是同样能够利用60种不同物质的不同代谢模式之间也只有30%的生化反应相同。即使如此，这些数量在万亿级别的表现型相同的代谢，依旧组成了一张相互联系的基因型网络。

到了这一步，我几近狂喜。我们偶然发现了代谢图书馆内组织构建的最基本原则。首先，许多代谢型都能够以相同的物质作为能源，这与具体的能源物质种类关系不大。生物通过对不同化学反应进行千奇百怪的组合，合成了必需物质。其次，相同的能源并不意味着相同的代谢，这些代谢型往往只有一小部分生化反应存在交集。最后，我们演算得到的代谢型都在一张巨大的网络中相互联系，这张网络就是基因型网络。每一类代谢都有各自的基因型网络，所有的网络在代谢图书馆里互相纵横交织，仿佛一块致密的绸缎。

我们以有限的预算完成了这项工作，我们的计算机集群在面对代谢图书馆里的馆藏数量时依旧显得力不从心。不过我们依旧为这个大得超出想象的图书馆绘制了一张粗糙的地图，仿佛乘坐浴缸进行了一次环球旅行。

同一表现型的不同代谢文本提高了我们找到该性状的概率，而且是成倍提高。此外，进化可不仅仅是一名在图书馆里闲逛的读者。相反，它会招募大量生物进入这座图书馆里寻找新的文本，每发生一次基因转移，生物在代谢图书馆中就深入一步。有着数十亿读者在朝着图书馆内不同的方向展开探索。

与我们在现实生活中逛图书馆相比，进化探索自然图书馆的方式还有一个不同之处。为了便于理解，我们可以假设有一个生物个体遭遇了一场变故，很可能是一个基因的删除，因此从安全前行的道路上偏离，与原本维持它生存的代谢文本失之交臂。发生在它身上的基因删除可能会摧毁某个关键分子的合成能力，而这个个体毫无生还的可能，自然选择将慷慨地赐予它死亡。这就是代谢图书馆，在那里，有些读者会在延绵数代的探索中消亡，而有的则得以生还。

从局外人的角度来看，图书馆中的探索者们，无论是细菌还是蓝鲸，并没有比尘埃泥土特别到哪里去。在自然图书馆面前，生命卑微得像无根的野草，在世间到处漂泊流浪。无数生命用自己的身躯试验着不同的化学反应组合，不断地试验，不断地重复。有些一命呜呼，有些则侥幸生还，继而把自己的经验传递给下一代。生命犹如风中翻腾的黄沙，生命进化的过程并不比无处安身的风尘高贵多少。

基因型网络就是那股风，没有它，生命的黄沙就失去了前行的动力。如果代谢某种物质的解决方案是唯一的，那么所有探索图书馆的读者就不得不挤在某本书周围。任何企图到附近书架开小差的个体都会被淘汰。而如果内容类似的文本稍微多一些，读者们也只能围在图书馆的某一小块区域内。多亏基因型网络的存在，生命才能在保证原有性状的同时，深入探索图书馆的各个角落。

生物进化的关键因素有两个，基因型网络只是其中之一。我们现在来看看第二个因素：代谢图书馆中社区内性状的高度多样性。

想象一下，一小块泥土中有着数十亿个细菌，只要偶尔给它们一点接济，比如一片掉落的叶子，一具腐烂的尸骸，或者一个从树上掉下的熟透的苹果，百无禁忌，它们就能生生不息。这些食物中营养物质丰沛，不过前提必须是细菌有能耐消化和吸收它们。换句话说，也就是细菌有适当的酶，可以利用外来的物质合成自己需要的生物成分。当可用的食物全部耗尽，只要有一个细菌拥有利用不同物质的能力，它就很可能会成为其他嗷嗷待哺的细菌的救世主。此时，新的性状就是微生物们延续生命的关键。

如果我们考量100种利用不同物质的代谢，它们之间的相互组合方式也将轻松超过10³⁰种，而上述那位救世主的代谢模式只是这么多组合里的其中一种而已。要把这10³⁰种代谢放在图书馆里的一个社区内自然是不现实的。每个社区大约只够容纳100多个不同的文本，这仅仅相当于所有代谢表现型的1/10²⁶。这就好比你随手从纽约公共图书馆里借走几本书用来填补你空空如也的床头柜，然后希望这其中包含了达尔文的《物种起源》。换句话说，你在白日做梦。但是，如果是一群读者循着某种指引分散深入到图书馆内，那么这个概率就大不相同了。由于基因型网络巨大无比，所以这群读者能够由此接触到数千个社区，这将大大提高找到目标文本的可能性。

为了验证这种组织形式是否真的存在，我们挑选了成对的代谢文本，每对文本的表现型都相同（比如利用葡萄糖的能力），除此之外，两个文本没有其他共同点。我们把两个代谢文本编码为A和B，它们位于自然图书馆内两个不同的位置，即它们包含的生化反应几乎各不相同，但它们又都是同一个基因型网络内的成员。接下来我们来检查它们所在社区里的5 000多个其他文本，其中的某些文本也同样具有利用葡萄糖的能力，也就是和我们挑选的文本属于同一张基因型网络，但也有一些失去了某些关键的生化反应，最终导致生物死亡。还有一些相邻文本——它们一直是我们关注的焦点，赋予了生物利用新物质的能力，比如利用乙醇或果糖。

对于这些基因型网络我们想问的是：A文本所在社区中的文本，即那些与A文本只相差一个生化反应的代谢模式，是否与B文本所在社区内的文本不同？如果A文本的相邻文本中包含能够利用乙醇和果糖的代谢方式，那么B文本所在的社区里会不会也有能够利用其他物质的代谢，比如，利用醋酸和蔗糖？

在分析了数千对代谢文本以及它们的表现型之后，我们发现之前的预设是正确的。文本所在的社区内往往有着控制新性状的文本，而不同社区内文本的表现型也十分不同。许多代谢性状都是某个社区所特有的，不会出现在其他社区中。（这是因为每种表现型都有自己所在的基因型网络，同时也意味着不同的基因型网络相互交织的方式极其复杂。）

在计算机的帮助下，我们进行了更进一步的探索。我们再一次漫步于代谢图书馆的基因型网络中，只是这次我们担任的是拿着笔记本的仓库管理员的职责，我们想要把所有与沿途文本直接相邻的文本记录下来，而这些新的文本是最触手可及的。在开始前进之前，我们列出了所有起点文本附近的新性状，之后我们跨出第一步，继续检查当前所有的相邻文本。如果新社区内包含原先没有的性状，我们就把它们加到列表里，然后再往前走一步，检查新的社区，加上新的性状，如此反复，直到走出数千步。我们已经知道不同的社区中包含的性状往往不同，所以我们猜测，随着愈发深入图书馆，列表上记录的新性状会越多，但是我们迟早会记录完所有的性状。

事实证明，我们的想法大错特错。记事本马上就写满了，但新的性状还是源源不断地涌现出来。

为了排除研究的偶然性，我们继而重复了很多次类似的尝试，从不同的起点开始，分析依靠不同物质作为能源的代谢方式。我们还增加了实验的样本，想要计算出它们到底能找到多少新的性状。在每一次演算里，新的性状总是稳步增加，毫无衰减和停歇的迹象。不管我们的演算持续多久，无论是100步，1 000步还是10 000步，也无论是一小时，一天还是一周，直到我们用尽时间，或者有新的工作要做。最终，我们意识到，在有生之年我们恐怕是看不到代谢进化江郎才尽的那一天了。

代谢图书馆里的新性状几乎取之不尽。基因型网络和社区多样性亦然，它们是进化发生的两个关键。基因型网络确保了生物探索自然图书馆的能力，没有基因型网络，生物一不小心就会踏入万劫不复的境地。而如果没有社区，沿着基因型网络进行的探索就失去了意义：网络中的性状都一样，对其中某个性状的探索不会带来任何新的性状。

人类图书管理员在管理现实的图书馆时可没有这样的本事。且不说去哪里找用数千种不同的方式讲述同一个故事的书，即便有，也没有图书管理员会模仿自然图书馆的组织形式，在一个主题区域里摆放内容不同的各种书籍，他们也无法把含义不同的书安排在主题相似的文本附近。

不过只要仔细思考就会发现，代谢图书馆并不是什么疯子脑袋里的奇怪想法。人类的图书馆之所以非常实用，仅仅是因为图书管理员按照我们的需求对书本进行了分类管理，有关太阳能电池的书在这个书架上，而与法国文学有关的书则在那个书架上等。而对于一个读者没有偏好，只能随机游走的图书馆来说，只要走错一步就会灰飞烟灭，那么谁都不敢在这样的图书馆里随便走动，读者只能停留在眼前的书架上。如此一来，它们就成了鼠目寸光的伪学者，除了精通自己所在的书架之外，对其他领域一无所知，也不会学到任何新的东西。这可不是在这个多变的世界上生存下去的好办法。对于这样的读者来说，代谢图书馆简直是专门为它们寻求新性状设计的。

更奇妙的是，其他与生命有关的自然图书馆也遵循相同的组织方式。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈