解码生命，从基因测序开始

时间：2022-02-10 理论教育版权反馈

【摘要】：20世纪90年代，文特尔利用独创的“全基因组霰弹测序法”快速完成了流感嗜血杆菌和生殖支原体的基因组测序。phiX174基因组测序成功后的十年中，DNA测序工作的进展非常迅速。在我来到美国国家卫生研究院后的第一年里，我们使用有放射性的桑格测序法只完成了一个基因的测序，即人类大脑肾上腺素受体的基因。

噬菌体phiX174的基因测序最初是用“桑格测序法”完成的。不过，桑格测序法速度慢，测序难度大。20世纪90年代，文特尔利用独创的“全基因组霰弹测序法”快速完成了流感嗜血杆菌和生殖支原体的基因组测序。此时，一个更大的难题摆在人们面前：怎样合成一个完整的基因组？

LIFE AT
THE SPEED
OF LIGHT

在许多人看来，早期的分子生物学似乎是一门与生物化学有巨大分歧的新学科。然而，我们的观点并不涉及生物化学的方法，而仅仅涉及生物化学家们忽略的信息化学这个新领域的盲区。

——悉尼·布伦纳

现在我们已经进入数字生物学时代。在细胞中，蛋白质和其他相互作用的分子可以被看成是细胞的硬件，而DNA被编码的信息则可以被看成是细胞的软件。制造活的、能够自我复制的细胞所需要的全部信息都已被“锁定”在蜿蜒曲折的双螺旋结构当中。

一旦我们读取并翻译了它的密码，久而久之，我们就应该能够完全了解细胞是如何工作的，进而我们就能够通过编写新的细胞软件来改变和改进它们。当然，在实践中，说永远比做容易得多：对DNA软件的研究结果表明，它甚至比我们十年前所想象的还要复杂。

桑格测序法

早在1949年，弗雷德里克·桑格就已经确定了蛋白质（胰岛素）的第一个线性氨基酸序列，但读取DNA密码的发展过程却相当缓慢。在20世纪60年代和70年代，进展极其艰难，每个月（甚至每年）只能完成极少数几个碱基对的测序。1973年，哈佛大学的艾伦·马克西姆（Allan Maxam）和沃尔特·吉尔伯特（Walter Gilbert）发表了一篇论文，描述了他们是如何使用他们新创的测序方法把24个碱基对确定下来的。与此同时，RNA的测序也在进行中，进展稍微快了那么一点儿。不过，与今天我们所拥有的技术和能力相比，那就微不足道了。在当时，读取少数几个字母就已经算是了不起的“英雄壮举”了。

从人类基因最初被解密开始，大多数人都已经对基因组学有所了解，这最终促成了我和竞争对手在2000年与克林顿总统在白宫会面的活动，我们共同参与了一个以揭开人类基因组序列的面纱为目标的项目。实际上，解密DNA的最初想法至少可以追溯到半个多世纪以前，那时沃森和克里克提出了DNA的结构。在这个知识领域里，一个重大的飞跃发生在1965年，当时，由康奈尔大学的罗伯特·W.霍利领导的研究团队公布了来自酿酒酵母的酵母细胞中的、由77个核苷酸组成的丙氨酸的转运RNA序列，这是一个更大的项目——搞清楚转运RNA是如何帮助氨基酸合成蛋白质的——的部分成果。在那之后，RNA测序工作继续进行，1967年，桑格领导的研究团队从大肠杆菌中确定了5S核糖体RNA的核苷酸序列，这也是一种含有120个核苷酸的“迷你型”RNA。第一个被成功解密的真正意义的基因组是一个RNA病毒基因组：1976年，比利时根特大学沃尔特·菲尔斯实验室成功测定了噬菌体MS2的RNA序列。菲尔斯曾经与加州理工学院的罗伯特·L.辛斯海姆（Robert L.Sinsheimer）合作过，而后又与威斯康星州麦迪逊市的哈尔·葛宾·霍拉纳一起研究过噬菌体（噬菌体能“劫持”细菌细胞进行复制）。

起源于20世纪70年代中期的DNA测序技术使我最终测出人类基因组序列。当时剑桥大学的桑格领导的研究团队开发出一系列新的DNA测序技术。第一种测序法叫“加减”测序法，随后又出现了被桑格命名的“双脱氧法”测序法，学界为了表达对桑格的敬意，现在这种方法又被称为桑格测序法（Sanger Sequencing）。

桑格测序法利用双脱氧核苷酸或者终止核苷酸，终止DNA聚合酶的工作，即不让它将更多的核苷酸添加到不断增长的DNA链上。双脱氧核苷酸缺乏一个羟基，这就意味着，当它被一个DNA聚合酶连接到不断增长的核苷酸链上后，核苷酸将不会再进一步增加。通过连接一个放射性磷酸到四个核苷酸中的某一个上面，我们就给DNA片段贴上一个标签，这样一来，只需要将用于把各个片段分离开来的凝胶进行X射线曝光处理，就能够读出其中的A、T、C、G的序列了。

很快，桑格的团队就使用上述新测序工具完成了第一个DNA病毒基因组序列的测定，即对噬菌体phiX174的测序，他们的成果于1977年发表在《自然》杂志上。克莱德·哈奇森（Clyde Hutchison，现在供职于J.克雷格·文特尔研究所）当时是桑格实验室的访问科学家（他来自北卡罗来纳大学，自1968年以来一直是那里的教员），哈奇森促成了phiX174基因组序列的测序成功。20世纪50年代，辛斯海姆曾经使用光散射法估算出phiX174基因组的大小，他认为它大约有5 400个碱基，当桑格公布实际有5 386个碱基时，辛斯海姆甚感欣慰。

全基因组霰弹测序法

在桑格的论文发表之前的两年，我已经从加州大学博士毕业，到纽约州立大学布法罗分校开始了独立的研究和教学生涯。我当时没有及时看到桑格的论文，因为当时正值致命的77号暴雪肆虐之时，而且他的论文发表后两个星期，我的儿子也刚好出生。那时我的实验室正致力于分离和描述一种特定的蛋白质的特性，这种蛋白质通常出现在神经细胞之间进行信号传递的地方，被称为神经递质受体。

phiX174基因组测序成功后的十年中，DNA测序工作的进展非常迅速。虽然桑格测序法成为世界性的标准测序方法，不过，它的速度很慢，非常麻烦，而且需要使用大量的放射性磷，但放射性磷的半衰期只有几个星期。此外，读取测序凝胶更像是一门艺术而非科学。桑格在他第二次获得诺贝尔奖时的演说中曾经描述过，用这个早期的DNA测序法进行测序，是一件非常考验人的乏味的工作，他还得出结论：“应该有一种新的、可行的方法，它能够测出遗传物质的序列。”

1984年，我把我的研究团队搬到了美国国家卫生研究院。这时，我们开始自学分子生物学，方法是参考经典的分子生物学著作，同时与马歇尔·尼伦伯格以及他的实验室进行互动交流。在我来到美国国家卫生研究院后的第一年里，我们使用有放射性的桑格测序法只完成了一个基因的测序，即人类大脑肾上腺素受体的基因。这项工作整整花费了我们大半年的时间。与桑格一样，我确信必然存在一种更好的测序方法。幸运的是，大约就在这个时候，加州理工学院的勒罗伊·胡德（Leroy Hood）和他的研究团队发表了一篇关键性的论文，描述了他们在终止DNA碱基对的时候，是如何使用四种不同的荧光染料来代替放射性磷的——在染色后，当用激光束激活时，其序列能够在计算机中读取出来。正当我们开始对关于测序整个人类基因组这个“疯狂”计划进行严肃的讨论时，我从一个新公司——美国应用生物系统公司（Applied Biosystems）——那里获得了第一台自动化DNA测序机器。

使用这种新的DNA测序技术，再加上计算机分析，我的实验室通过一种我自己开发出来的新方法快速测定了数以千计的人类基因。我这种方法主要集中用于那些相对较短的序列，我的团队把这类序列命名为表达序列标签（expressed sequence tag, EST）。表达序列标签法可以用来测定“被表达”的遗传物质和信使RNA（在把它转化为互补DNA之后）。虽然我们利用表达序列标签法成功地发现了数千种人类基因，但是我的方法并没有得到学界认可，他们把它当作是对传统发现基因方法的威胁，事实上，我们每天所发现的新基因比过去十年里所有科学团队已经发现的全部基因还要多。直到美国政府决定为我的团队所确定的基因申请专利时，这种情况仍没有得到大幅度改善。虽然我们的发现受到了攻击，也引起了争议，但是这一切催生出一些相当吸引人的提议，其中就包括建立一个属于我自己的基础科学研究所。1992年，我接受了这个建议。我把这个研究所命名为基因组研究所（The Institute for Genomic Research, TIGR），它位于马里兰州的罗克维尔市，在那里我们建造了世界上最大的DNA测序工厂，我们所使用的是最新版本的自动化DNA测序机器。

1993年，我有幸在西班牙毕尔巴鄂举行的一个科学会议上概述了我们在发现基因方面取得的快速进展，那次会议上的一次偶遇，使得基因组学发展的整个历史进程发生改变。在那次会议上，许多听众都被我们利用表达序列标签法所得到的大量结果以及我们所发现的东西的性质震惊了——尤其是，当我们宣布，我们与巴尔的摩约翰·霍普金斯凯莫癌症中心的贝尔特·福格尔斯泰因（Bert Vogelstein）一起合作，发现了引起非息肉结肠癌的基因时。当直接走到讲台前来提问的人群消散之后，我见到了一个高高的、面容和蔼可亲的男人，他留着一头银灰色的头发，戴着一副眼镜。“我原本以为你头上还长着角呢！”他这样对我说道。他指的是我的个人形象，我已经被媒体“妖魔化”了，媒体过去经常这样描绘我。他自我介绍说，他叫汉密尔顿·史密斯，来自约翰·霍普金斯大学。其实我早就听说过史密斯了，他在这个领域内声名卓著，而且他还获得过诺贝尔奖。我几乎在一瞬间就喜欢上了史密斯——他显然已经决定，关于我这个人，关于我所从事的科学研究事业，他要自己来下判断，而不会让他人决定自己的思想。

那个时候，史密斯62岁，已经走过了一段漫长的、富有成效的职业生涯，他正在考虑退休的问题。然而当我结束演讲之后，我们在酒吧交谈，随后又共进晚餐，他提出了一个颇有意思的建议。史密斯告诉我，他认为，他本人最“喜欢”的细菌流感嗜血杆菌（他从中分离出了第一个限制性内切酶）将会是使用我的方法进行基因测序的一个非常理想的“候选人”。

我们第一个合作项目的启动过程显得非常缓慢，对此史密斯解释说，制造包含流感嗜血杆菌基因片段的克隆库存在着一些问题。不过，仅仅几年之后，他又透露，他在约翰·霍普金斯大学的同事不喜欢我的项目，他们因为对表达序列标签法“愤怒和恐惧”而用怀疑的目光看待我，他们告诫史密斯，他与我的交往将会毁掉自己的一世英名。尽管他们中的许多人都将自己的整个职业生涯奉献在研究流感嗜血杆菌上，但是他们却没有立即看到获得它的整个基因组序列的价值。最终，史密斯不得不退出，重新组建了一个自己的团队，正如我在几年前致力于开发表达序列标签法时的情况一样。

史密斯开始在基因组研究所与我合作。我们合作项目的工作开始于1994年，参与人员包括我的科学团队中的大部分人。与早些年与桑格实验室合作研究phiX174时不一样，那时我们使用的是孤立的独一无二的酶片断，一次只能测出一个基因序列，我们完全依赖于随机性。现在，我们把一个混合库中的基因组打碎成片断，随机选出25 000个片段以获得短序列，每个序列大约有500个字母。我们使用一种由格兰杰·萨顿（Granger Sutton）开发出来的新算法，开始求解这个迄今一直困扰着我们的最大的生物难题，然后我们把这些片段重新组装到原来的基因组中。在这个过程当中，我们开发出许多新方法用于完成基因组的测序工作。基因中的每一个碱基对都被精确地测出了序列，25 000个片段也都被精确地组装成功。结果是，180万个基因碱基对在计算机里以正确的顺序完成了重组。

我们下一步要做的工作是，诠释基因组以及将基因组的所有成分都识别出来。作为研究活的自我复制有机体的基因补体的第一步，我想做的不仅仅是简单地报告序列。我们研究团队花了大量的时间研究这样一个问题：关于有机体的生命，基因集到底能够告诉我们什么？或者说，这个被写入了生命的结构和功能的软件对我们究竟意味着什么？我们把研究这个问题的结果写成了一篇论文，它很快被《科学》杂志接受，并计划于1995年的6月发表。而在此之前，关于我们成功的“谣言”已经在学界流传了几个星期。结果，我被邀请在美国微生物协会的年会上发表“会长演讲”，这次会议定于1995年5月24日在华盛顿特区举行。我接受了这个邀请，因为我以为史密斯会与我一起站在这个演讲台上。当我看到美国微生物协会主席、圣路易斯华盛顿大学的戴维·施莱辛格（David Schlessinger）把它宣告为一个“历史事件”时，我的压力真正来临了。

在测定流感嗜血杆菌基因序列的过程中，我们已经把生物学的双螺旋结构转变成了计算机数字世界中的代码，但是有趣的事情才刚刚开始出现。事实上，虽然我们是利用这种细菌的基因组来探索它的生物特性以及试图揭示它如何引起脑膜炎和其他传染病的，但我们其实已经测出了第二个基因组的序列，以便验证这种方法。它属于我们目前所知道的最小的一种生物，即生殖支原体。当我结束演讲时，所有听众全都齐刷刷地站了起来，掌声真诚而热烈，经久不息。我以前在任何一个科学会议上从未看到过如此强烈而自发的反应。

这是一个非常甜蜜的时刻。我的研究团队成为有史以来第一个测定活细胞基因代码序列的团队。另一个事实同样意义非凡，我们是通过开发出一种全新方法做到这一点的，我们把这种方法命名为“全基因组霰弹测序法”（whole genome shotgun sequencing）。这无疑是了不起的成就，它标志着一个新纪元的开始，自此之后，对活体生物DNA的读取就成了一种“常规化操作”，这极大方便了对它们的分析、比较和阐释。

在我们完成了对流感嗜血杆菌基因组的测序工作后，我开始着手进行第二个基因组的测序工作，这样我们就能够对这两个基因组进行对比以帮助理解生命所需要的最小基因集这一问题。当时北卡罗来纳大学教堂山分校的克莱德·哈奇森已经提出一个非常有吸引力的“候选人”，它拥有目前所知的规模最小的基因组，那是一种生殖支原体，它只有不到500个基因。对这个基因组的研究似乎可以与我们在流感嗜血杆菌基因组上的工作形成互补，因为生殖支原体来自一个不同的细菌种类。革兰氏染色法（Gram staining）是以它的发明者汉斯·克里斯蒂·革兰（Hans Christian Gram，1853—1938）命名的，利用这种方法，可以把所有的细菌物种分成两组：能够被染成紫色/蓝色的细菌称为革兰氏阳性细菌（例如，枯草芽孢杆菌等）；能够被染成粉红色/红色的细菌为革兰氏阴性细菌（例如，流感嗜血杆菌）。通常认为，生殖支原体是由一种源自芽孢杆菌的物种演化而来的，因此它被归入革兰氏阳性细菌的成员中。

生殖支原体基因组的测序工作需要三个月就可以完成。1995年，我们在《科学》杂志上已经发表了582 970个生殖支原体基因组的碱基对。虽然我们所取得的成果最后都是为了创建一个合成细胞，但是它们也产生了一些更加直接的影响。在此之后，事实上我们已经创建了一门新的学科，它被称为比较基因组学（comparative genomics）。通过对这两个有史以来最早被测定的基因组序列的比较，我们能够找到一些与活的自我复制的生命形式相关的共同元素。比较基因组学利用了生物学中最令人激动的发现之一：当演化产生出一个执行关键的生物功能的蛋白质结构时，演化往往会一遍又一遍地使用相同的结构/序列。

举个例子，控制酵母细胞分裂基本过程的基因与控制人类细胞分裂基本过程的基因是类似的。因为我们已经从大肠杆菌那里识别出了为DNA聚合酶指定遗传密码的基因，并且对它的测序也成功了，其功能特征也已经明确了。这样一来，我们的研究团队能够利用这个信息在推定的流感嗜血杆菌的基因序列中寻找类似的序列。如果任何一个DNA序列都是与大肠杆菌DNA聚合酶基因序列相差无几的话，那么我们能够推断，流感嗜血杆菌基因同样是一种DNA聚合酶。问题是，在1995年，基因数据库中的数据非常匮乏，因此我们无法对基因组进行太多的比较。结果在我们已经测序的基因组中，有近40%的推定基因在数据库中得不到与之匹配的数据。

我们发表在《科学》杂志上那篇有关生殖支原体的论文描述的是，我们是如何使用两个已经测序成功的基因组数据去探讨有关生命秘密的基本问题的。这个问题就是：这两个物种所包含的基因内容的关键性差异是什么？在流感嗜血杆菌中大约有1 740种蛋白质，每一种蛋白质都被一种特定的基因指定了遗传密码，另外还有80个基因是为RNA指定遗传密码的。生殖支原体只有482种被基因指定了遗传密码的蛋白质以及42个RNA基因。生殖支原体基因组更小，部分是因为它缺乏制造自己的氨基酸的所有基因（这些基因能够从它们的人类宿主中获得）。与生殖支原体一样，我们人类也有“必需氨基酸”，比如缬氨酸和色氨酸，这些氨基酸是我们的细胞无法自己制造出来的，我们不得不从食物中获取它们。

最小基因集

也许一个更有意思的问题是：这些截然不同的微生物共同拥有哪些基因。如果在许多不同种类的有机体中都找到了相同的基因，那么这些基因必定具有某种更为重要的意义。共同的基因表明，这些不同种类的有机体具有一个共同的祖先，它们实际上可能就是生命过程本身的核心。在1995年的那篇论文中，其中一个关键性的段落这样写道：“对生殖支原体的基因以及它们的组织结构进行细致的探究，然后我们就可以着手描述生存必需的最小基因集了。”

接下来，我们就开始思考生命的最小基因集的问题。一个细胞生存和发展所需要的最少数量的基因都有什么？我们希望通过这些种类完全不同的细菌所共同拥有的基因，让我们窥见这个“关键基因集”的面貌。

1995年，我们对生物学知识的匮乏状态的一个例证是，我们对流感嗜血杆菌的基因组中的736个基因（即43%的基因）的功能、对生殖支原体的基因组中的152个基因（即32%的基因）的功能，我们一无所知。在撰写这些论文的过程中，关于生命的奥秘、生殖支原体的基因组是否能够代表一个真正的最小基因集，我们曾经讨论过许多次。有关生殖支原体这篇论文的结论就暗含了讨论结果：“把一个新测序成功的基因序列与生殖支原体的基因序列进行对比，应该有助于我们为一个自我复制的有机体的基本基因补体下一个更精确的定义，也有助于我们更加深刻全面地理解生命的多样性。”好消息是，其他研究团队也根据我们最初发表的这两个基因组的数据开始跟进了。美国国家卫生研究院的尤金·库宁（Eugene Koonin）称赞道，这个发展标志着基因科学新时代的来临。库宁还依据他们的计算结果得出了这样一个结论：在微生物中，基因多样性的情况很少见。他这个结论是建立在革兰氏阴性细菌（流感嗜血杆菌）的基因集与革兰氏阳性细菌（生殖支原体）的基因集相似的基础上的。然而，我们的下一个基因组项目却一下改变了关于基因多样性的“世界观”。

1996年，我们特意为第三个基因组项目选择了一个不同寻常的物种：詹氏甲烷球菌（Methanococcus jannaschii）。这种单细胞生物生活在海底热泉喷口附近，那是一个非同寻常的环境，时刻都有炽热的、富含矿物的液体从深深的海底喷涌而出。在这地狱般的环境中，这些细胞要承受得住超过245个大气压的压力（相当于每平方厘米的面积要承受279千克的压力，如此巨大的压力可以压碎许多东西）以及大约85℃的高温。这本身就已经非常了不起了，大多数蛋白质在50℃～60℃左右时就会改变性质，这就是为什么烹煮后的蛋白会变硬的原因。与生长在地表上依赖阳光的其他生命体不一样，甲烷球菌是一种自养生物，也就是说，它能够从无机物中制造出维持自己生存所需要的一切物质。对甲烷球菌来说，二氧化碳就是所有蛋白质和脂质的碳源，它能够通过把二氧化碳转化为甲烷来“生产”自身所需的细胞能量。甲烷球菌属于被称为生命的第三个分支的古生菌，它是直到1977年才被伊利诺伊州大学的卡尔·乌斯发现的。在与乌斯合作时，我们选择了甲烷球菌作为进行测序和分析的第一个古生菌。

甲烷球菌的基因序列果然没有让人失望。甲烷球菌的基因组极大地拓宽了我们的生物学视野和对这个星球上基因库的理解。在甲烷球菌的基因组中，差不多有60%的基因在科学上是全新的，其功能也是未知的；只有44%的基因与我们以前曾经描述过的基因相似。甲烷球菌的一些基因，包括与它的基本能量代谢有关的那些基因，与细菌分支相类似。然而形成鲜明对比的是，它的许多基因，包括与信息处理、基因和染色体复制有关的那些基因，却与真核生物的基因十分匹配（其中也包括一些来自人类和酵母的基因）。我们的基因组研究成果被刊登在了美国所有重要报纸和杂志的头版，在世界其他国家也几乎都以头条的形式出现。《经济学人》杂志选定的标题为《非凡的成就》，而《大众机械》（Popular Mechanics）则宣布我们发现了“地球上的外星生命”，《圣荷塞信使报》（San Jose Mercury News）也以《来自科幻小说中的东西》为题目进行了追踪报道。最近的一些研究表明，真核生物很可能是古生菌的一个分支，如果这个结果是正确的，那么这就会让我们再次回到生命的两大重要分支上来。

同年（即1996年），美国航空航天局公布的一些研究结果也成了世界各地报纸杂志的头条，很多人认为它们构成了火星上存在生命的证据。美国航空航天局的埃弗雷特·吉布森（Everett Gibson）和他的同事宣布，他们在一颗名为ALH 84001的陨石中发现了几个大小为几十纳米的微生物化石。这个发现曾经轰动一时，因为ALH 84001原先位于火星表面，它是由于受到撞击而脱离火星的，大约13 000年以前掉落在地球上。

这个火星微生物的消息，再加上这颗陨石上许多微小的斑点和小小的香肠状图案让人浮想联翩，极大地启发了人们的思维，也使得学界关于到底什么才是最小的基因组的讨论更加热烈。通过一个简单的计算，我们算出了被广为报道的“纳米细菌”的体积，我们的计算结果表明，它是如此之小，以至于根本不可能包含任何DNA或RNA分子。现在已经很清楚了，在ALH 84001中所看到的结构并不是来自生物体。事实上，晶体生长机制能够产生与原始细胞相类似的沉积物。

在接下来的几年里，我的团队继续对大量不同寻常的物种的基因组进行了测序，其中包括受巴里·马歇尔（Barry Marshall）的开创性工作的启发而选定的那个物种。马歇尔和病理学家罗宾·沃伦（Robin Warren）认为，人类的胃溃疡是由一种螺旋形细菌导致的，这种细菌后来被命名为幽门螺杆菌（heliobacter pylori）。尽管马歇尔的工作不断地遭受挑战和质疑，但他一直坚持了下来，这种坚持不懈的精神鼓舞了我。他的同行并不愿意相信，是细菌而不是压力导致胃溃疡。1984年，马歇尔为了证明自己的结论，勇敢地决定采用吞服幽门螺杆菌的方式来解决这个问题。吞下幽门螺杆菌后，他很快就开始出现了呕吐症状，并且发展成胃炎。最后，他的坚持得到了回报。他的研究使得数以百万计的人决定使用抗生素治疗胃溃疡，这极大地降低了患者患胃癌的风险，而且他们不必每天都服用止痛药了。1997年，我们公布了幽门螺杆菌的基因组序列，马歇尔也在2005年被授予诺贝尔医学奖。

因为单细胞生命已存在近40亿年了，它们生存的环境非常多样化，从极寒的南极荒漠到高热的酸性温泉，它们都可以生存。在极端的环境下还能维持自己的生命，这种能力使这些生活在边缘化环境下的生物体赢得了“极端微生物”（extremophiles）的称号。我们认为，通过探索这类极限情况的生命奥秘（正如我们已经对甲烷球菌所做的那样），我们能够从比较基因组学研究中获得最大的收获。我们要测序的下一个极端微生物基因组是古生球菌（Archaeoglobus），它生活在石油矿床和高热温泉中。这个生物体把硫酸盐作为自己的能量来源，但是它其实能够“吃”几乎任何东西。我们对这种生物体的基因组的超过200万个字母的初次分析结果显示，我们对其1/4的基因的功能一无所知（在这些神秘的基因当中有2/3是与詹氏甲烷球菌共同拥有的），另外还有1/4的基因则对新的蛋白质编码。

我们最初两个细菌基因组和第一个古生菌基因组的测序以及其他实验室和研究团队所公布的酵母基因组的测序，为全世界提供了有关所有三大生命分支基因组的最初景观。然而，这些数据能够告诉我们“生命的基本配方”是什么吗？我们试图确定生命的基本基因，这个目标驱使我们沿着几条不同的实验路径深入探寻。事实上，从一开始，我们的计划就是从多个方向出发的，旨在去实现理解“最小的自我复制的生命形式”这个目标。如果合成基因组将是最终的解决方法，那么我们就需要大量的、在科学文献中找不到的基本细胞生命的信息。

最显而易见的一个方法是，从生殖支原体基因组中“敲除”掉某些基因，然后再试图确定哪些基因是必不可少的：移除或关闭一个基因，如果生物体能够继续存活下去，那么就可以假设这个特定的基因并没有扮演关键角色；如果这个生物体死亡了，那么很明显这个基因是必不可少的。这个想法很简单，而且以前也曾经在一系列物种中成功地使用过。犹他大学的马里奥·卡佩奇（Mario Capecchi）、北卡罗来纳大学教堂山分校的奥利弗·史密斯（Oliver Smithies）以及英国卡迪夫大学的马丁·埃文斯（Martin Evans）分享了2007年的诺贝尔奖，就是因为他们在这个领域内的贡献：他们在20世纪80年代开发出一种小鼠基因敲除技术，能够让一个或更多的基因被选择性地关闭。

但是，理论设想是一回事，把这种方法实际应用于生殖支原体又是另一回事。事实表明，困难比原来想象的大得多。对像酵母这样的物种实施基因敲除技术是比较容易的，这要归功于可以用于这个物种的那么多有效的遗传工具。而支原体则完全缺乏类似的工具，能够使生殖支原体产生多个连续的基因变化的方法也同样付之阙如。

分子生物学的另一个基本工具是抗生素选择（antibiotic selection）。抗生素选择这种工具的原理是，利用抗生素杀死所有基因未被修改的细胞，从而把内部基因已经发生变化的那些细胞选择出来。被修改的细胞之所以能够存活下来，是因为那些被用于为它们引进新的基因的DNA质粒，还包含为那些耐受抗生素的酶指定遗传密码的基因。虽然这项技术已经成了大多数分子生物学实验的基础，但是不幸的是，它只对某些抗生素选择系统有效，从而严重限制了基因变化的数量。

为了解决上述问题其中一个子问题，克莱德·哈奇森想出了一个独特的方法，我们把它称为“全基因组转座因子诱变法”（whole genome transposon mutagenesis）。这个方法的关键是一种被称为“转座因子”（transposons）的小小的DNA基因单元，它能够让我们确定某个基因是不是必不可少的。一个转座因子是一个相对较短的DNA序列，它包含了一些必不可少的基因元素，有了这些基因元素，转座因子就能够插入到某个特定的基因序列当中，或者随机地插入到某个基因组当中。这个研究成果使哈奇森在1983年获得了诺贝尔奖。此后，美国科学家芭芭拉·麦克林托克（Barbara McClintock）在玉米当中发现了一些转座因子，它们改变了染色体的核心模式。你可以把一个转座因子看成一个自私的基因，它类似于病毒，能够“感染”一个基因组。事实证明，你的基因组当中的很大一部分就是由这种DNA“寄生虫”所组成的。它们是很重要的，因为如果把它们插入到某一个关键基因中，并且破坏了这个关键基因的功能，它们就会引起遗传性疾病。

我们选择了一个从金黄色葡萄球菌（Staphylococcus aureus）中分离出来的转座因子（Tn4001），将它随机地插入到生殖支原体基因组中，以此来破坏基因的功能。我们培养了那些插入转座因子后还能存活下来的细胞，把它们分离出来，并且对它们进行DNA测序，我们从一个只跟转座因子绑定的测序引物入手，精确地确定了转座因子在基因组中的哪个位置终止。如果把Tn4001插入到某个基因中间，细胞仍然能够存活，那么我们可以假设，这个基因对生命并不重要。

利用转座因子对基因组进行轮番“轰炸”之后，我们得到了活细胞中所有没有被转座因子插入的基因，我们给这些基因贴上了“对生命来说是必不可少的”这样的标签，将它们归类为一个组别。然而，当我们完成了对数据的分析之后，我们便意识到，这个绝对评分系统是不成熟的，基因和基因组是具有情境特异性的，单凭基因并不能为生命下定义。因为所有的细胞都从它们的环境中获得了关键的营养和化学物质，如果环境发生改变，那么生活于那个新环境中的生命所需要的基因也会发生改变。

膜运输蛋白负责把必需营养素从环境中运送入细胞。举个例子，生殖支原体之所以能够独立地依赖于两种糖类（葡萄糖和果糖）而生长，是因为它内部存在着分别对运输每一种糖类的特定的蛋白质机器进行编码的基因。在我们的转座因子插入研究当中，这两种基因都出现在“非必需基因”那个组别中。一开始，这个结果让我们非常惊讶，因为这两种基因无疑是生殖支原体获得“食物”的途径的核心。后来我们意识到，我们培养生殖支原体细胞所使用的介质已经包含了葡萄糖和果糖，而这也就意味着，任何一种“运输机器”的基因被敲除，细胞仅仅只会改而消费另外一种糖类而已。相反，如果我们只用一种糖类来培养细胞，那么当这种糖类“运输机器”被敲除后，这些细胞便会死亡。就某些功能而言（例如糖类代谢），不难找出“有条件的至关重要的基因”，但是对于一些我们不了解的细胞功能和基因，没有一种明显的方法来确定是否还存在另外一种基因作为被破坏的基因的“后备”。

当我们把研究拓展到一种与生殖支原体相关的物种——肺炎支原体（My-coplasma pneumonia）之后，上面这个结果进一步得到强化。肺炎支原体是生殖支原体已知的最近的亲戚，它的基因组有816 000个碱基对，比生殖支原体多了236 000个碱基对。我们想再次使用转座因子插入法和比较基因组学的方法来确定生命所需要的最小数量的基因。肺炎支原体的基因组包括了一些从一个共同的祖先基因（直接同源）那里演化而来的基因，这些基因事实上包括了生殖支原体的全部480个蛋白编码基因以及197个另外的基因。这样便浮现出了一个诱人的可能性：这两个物种所共同的480个基因有可能接近构成最小基因集吗？我们的初始假说是，肺炎支原体的基因组中的197个额外基因应该可以通过转座因子全部破坏掉，因为生殖支原体的存在表明它们对生命而言并非是必不可少的。但实验结果并不令人满意，或者说给我们提供的信息量并不大。我们发现，在肺炎支原体的基因组中，共有179个基因已经由于被转座因子插入而受到了破坏，但是在前述197个额外基因中，只有140个基因被破坏掉了。

综合我们全部相关研究的结果，我们估计，在生殖支原体中有180～215个基因并非至关重要的，而必不可少的基因的数量为265～350个。在后者当中，有111个基因的功能我们目前还不知道。这显然不能算是我们所寻求的生命的精确定义。此外，通过这些数据，还有一点也已经越来越清晰了：一些就个体而言可有可无的基因，也可能无法被全都敲除。

考虑到分子生物学工具的有限性以及转座因子数据的局限性，我们得出结论：得到最小基因组的唯一方法是设法从头开始合成一个完全的细菌基因组。为此，我们将不得不只使用必不可少的基因通过化学方法合成整个染色体。然而这将是一个非常巨大的挑战。尽管近半个世纪以来，科学家们一直都在“书写”小片段的遗传密码，但是从来没有人制成任何一个DNA结构，甚至在我们所需要的大小的20倍之内的DNA结构也没有。

新挑战：完整基因组的合成

DNA的化学合成工作可以追溯到20世纪60年代，它是伴随哈尔·葛宾·霍拉纳和马歇尔·尼伦伯格所取得的成功而发展起来的。但是一直到20世纪80年代，在科罗拉多大学的马文·卡拉瑟斯（Marvin Caruthers）发明了自动化DNA合成机器之后，化学合成才获得实质性的进展。卡拉瑟斯的合成机器利用四个装有DNA碱基A、T、C和G的瓶子，按指定的顺序把一个碱基添加到另一个碱基中。通过这种方法，DNA合成机器能够制造出一个叫作寡核苷酸的短链DNA。然而，随着寡核苷酸的长度增加，产量和精度都会下降。自那之后，围绕着合成寡核苷酸以及如何把它们送到研究者手中的问题，一个完整的行业建立了起来。在分子生物学中，合成DNA经常被用于DNA测序和聚合酶链式反应（PCR）。

把合成的寡核苷酸连接起来常常使用化学方法，以便制造出更长的DNA片段。当我们第一次开始讨论合成一个完整的基因组时，全世界已经制造出来的最大的DNA片段被测出只包含了几千个碱基对。制造一个活的生物体的基因组要求我们利用化学方法合成和组装几乎达60万个碱基对，因此我们知道，我们需要发展新的方法来完成这一目标。为了搞清楚我们的想法是否真的几乎没有可能性，我们决定应该首先尝试一个小型的试点性测试项目。为此，我们决定先尝试合成噬菌体phiX174的基因组。噬菌体phiX174是第一个被测序的DNA病毒。除此之外，另一个研究团队早在30年前就已经进行过一次了不起的、成功的尝试，他们采用酶法复制出一个单链基因组。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈