首页 理论教育 结构基因组学

结构基因组学

时间:2022-02-09 理论教育 版权反馈
【摘要】:根据使用的DNA的标志和手段不同,结构基因组分为4张图谱,即生物体基因组的遗传图、物理图、转录图,以及生物体基因组的最终图就是它的全部DNA序列。
结构基因组学_分子生物学技术

第二节 结构基因组学

结构基因组学是基因组学研究的一个重要组成部分,它是一门通过基因组作图、核苷酸序列分析确定基因组成、基因定位的科学。根据使用的DNA的标志和手段不同,结构基因组分为4张图谱,即生物体基因组的遗传图、物理图、转录图,以及生物体基因组的最终图就是它的全部DNA序列。

一、测序技术

DNA序列分析是基因组学研究中不可缺少的技术之一,是了解基因组的结构和功能的基础。自从1977年英国剑桥大学的Fred Sanger和美国的Alan Maxam and Walter Gilbert领导的研究小组几乎同时发明DNA序列测定技术以来,测序技术一直在不断的完善和改进,特别是人类基因组计划的实施,为了保证基因组序列测定的高通量和高准确度,涌现出许多新技术、新方法和新仪器,如毛细管凝胶电泳、焦磷酸测序法、杂交测序法和质谱法等。

1.Sanger双脱氧链终止法 又称酶法。是最常用的测序方法,它利用DNA聚合酶能以2′,3′-ddNTP为底物的特性。DNA聚合酶不能起始DNA链的合成,而是在退火于“模板”DNA的引物的3′端上进行链的延伸。通过与模板碱基的特异性配对,dNTP被掺入到引物的生长链上,引物3′端的羟基与被掺入dNTP的5′磷酸基反应形成磷酸二酯键而延伸。当ddNTP通过5′磷酸基掺入到正在延伸的DNA链上,由于缺少3′端羟基而使链延伸终止。在4个测序反应中,每个反应只需加入4种ddNTP中的一种,可得到一系列长短不一的延伸链产物,它们具有共同固定的退火引物5′端和ddNTP随机掺入后而终止的不定的3′端。通过调整ddNTP和dNTP的比例来获得最佳测序产物链的长度。

早期的酶法测序是利用大肠埃希菌DNA聚合酶Ⅰ大片段(又称Klenow片段,Klenow酶)发展起来的,由于反应的进行性和条带的均一性差,早已不用了。20世纪80年代后期,出现了一种来源于T7噬菌体的已修饰的T7DNA聚合酶,又称测序酶,它具有很高的5′-3′的DNA合成活性和极低的3′-5′端外切酶的活性,虽然有着极好的条带均一性和反应进行性,但是耐高温性较差,对于解开DNA中可能存在的某些二级结构无能为力,同时测序反应中模板和引物的复合物只能生成一条标记的DNA分子,反应的灵敏度较差,需要较多的模板量,在大片段测序时尤为突出。循环测序法的出现解决了这个问题,只需少量的模板通过变性、退火、延伸20次循环,使得带标记的测序产物呈线性扩增,是一种较快的DNA测序方法。

随着染料终止剂化学和计算机技术的发展,出现了自动荧光测序技术,它利用不同荧光染料标记的ddNTP掺入到终止链的延伸来测序。它的优点在于不同种的ddNTP带有不同激发光的荧光染料,因此不需要进行4个分开的反应,而且4种链终止反应的产物可以在同一凝胶泳道上进行电泳分离。带有不同染料标记的每一种产物将被激光激发而发出不同波长的光,发射光经衍射光栅分解后,用电荷耦合器(CCD)检测光信号,经计算机处理后转换成DNA序列。毛细管电泳技术的出现,减少了电泳时间,自动化测序系统的出现(如ABI的3700测序仪)大大加速了基因组测序的效率。

2.Maxam-Gilbert化学降解法 该法由Maxam和Gilbert发明。首先用放射线标记双链DNA的3′或5′端,然后将标记的DNA分成4份,每一份都用化学物质(肼、硫酸二甲酯或甲酸)处理使特异碱基甲基化或去除,通过选择合适的条件,使得每一条链上平均只有一个位点被修饰,以便在DNA链中的每个碱基被修饰的机会均等。修饰反应之后,样品用哌啶断裂,它能特异性破坏碱基已被修饰过的核苷酸5′磷酸二酯键,已处理的样品在变性条件下电泳,放射自显影后,产生一套长短不一的DNA片段。所得的结果与Sanger法相似,每一个样品包含有长度不同而标记末端相同的分子,另一端在同一类型的碱基处被切断的片段。

3.焦磷酸测序 该技术是20世纪90年代出现的DNA序列分析技术,它无需进行电泳,DNA片段也无需荧光标记,操作极为简便。测序是由4种酶催化的同一反应体系中的酶级联化学发光反应,这4种酶分别是DNA聚合酶Ⅰ、ATP硫酸化酶、荧光素酶(luciferase)和三磷酸腺苷双磷酸酶(apyrase),反应体系中还包括酶的底物荧光素(luciferin)、5′-磷酰硫酸腺苷(adenosine 5′phosphosulfate,APS)以及DNA模板和配对的引物组成。在每一轮测序反应中,只加入一种dNTP,若该dNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放出等摩尔数的焦磷酸基团(PPi)。PPi可最终转化为可见光信号被CCD记录,转化为一个峰值。每个峰值的高度与反应中掺入的核苷酸数目成正比。然后加入下一种dNTP,继续DNA链的合成。其基本原理如下(图12-1)。

img131

图12-1 焦磷酸测序法

第1步:1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA聚合酶、ATP硫酸化酶、荧光素酶及三磷酸腺苷双磷酸酶)和底物混合物(包括APS和荧光素)。

第2步:向反应体系中加入4种dNTP(dATPS、dTTP、dCTP、dGTP)之一,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA聚合酶的作用下,添加到测序引物的3′末端,同时释放出一个分子的焦磷酸(PPi)。注意:反应时deoxyadenosine alfa-thio triphosphate(dATPS)是dATP的替代物,因为DNA聚合酶对dATPS的催化效率比对dATP的催化效率高,且dATPS不是荧光素酶的底物。

第3步:在ATP硫酸化酶的作用下,生成的焦磷酸可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。

第4步:ATP和未掺入的dNTP由三磷酸腺苷双磷酸酶降解,淬灭光信号,并再生反应体系。

第5步:加入另一种dNTP,重复第2~4步反应,根据获得的峰值图即可读取准确的DNA序列信息。

二、基因组测序的策略

(一)全基因组鸟枪法拼接序列

鸟枪法拼接基因组序列是没有借助于任何遗传或物理图谱信息,直接把已测的大量DNA小片段通过寻找彼此之间的重叠序列,经过电脑处理后拼接成完整的基因组序列。该方法在20世纪90年代初提出时受到广泛的争议,因为人们担心即使是最小的基因组分析,比较所有的短序列和鉴定重叠区的信息处理量,在当时的计算机系统是不可胜任的。1995年,TIGR的Craig Venter首先用此方法测序组装了流感嗜血杆菌的1.8Mb全基因组序列,证明了鸟枪法的可行性,以后又用该法完成了真核生物果蝇180Mb的基因组测序。

全基因组鸟枪法测序的主要步骤(图12-2)如下。

img132

图12-2 鸟枪法拼接序列

第一步:用超声波、限制性内切酶或者DNA酶Ⅰ把纯化的基因组DNA切割成长度为2.0kb左右的小片段,经琼脂糖凝胶电泳分离后收集1.6~2.0kb的片段,连接到质粒克隆载体中,构建基因组文库。克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组的5倍以上,确保测序的冗余量覆盖全基因组。

第二步:进行高效、大规模的末端测序,对文库中的每一个克隆进行两端测序。测序时尽可能获得长的序列,有利于序列的拼接,同时测得的原始数据的质量非常重要,通常用PHRED软件对测序仪读出的序列基于“base-calling”程序进行“质量值”评价,去除那些错误和可疑的序列片段。

第三步:序列拼接,目前DNA序列拼接应用的主要软件是由美国华盛顿大学Phil Green实验室开发的Phred-Phrap-Consed系统,利用Phrad组装序列,由Consed编辑、整合人工校对结果,Phrad拼接序列的方法是通过列线(aligment)查找匹配序列。列线算法采用了Smith-Waterman算法、Needleman-Wunsch算法、替换矩阵算法(缺省为BLOSUM50)、空位设置罚值和空位扩展罚值等算法。

第四步:填补缺口。序列拼接后组成的许多序列重叠群,彼此之间存在着空隙序列需要填补,有两种类型:①是序列缺口,这些序列是测序时被遗漏的,可以通过使用不同重叠群末端的序列作为探针,筛选基因组文库,获得的阳性克隆作进一步测序就可以封闭缺口。②为物理缺口,它们在基因组文库中不存在,可能是某些DNA在选择的克隆载体中不稳定而被丢失了,可以通过选择其他的克隆载体重新构建一个基因组文库来解决。该法可以迅速获得90%左右的片段序列结果,但随后测序效率明显下降,这是因为随后测定的随机片段越来越多的是重复已测序完成的片段。

鸟枪法有着测序速度快、无需构建遗传图和物理图等优点,但是它只适用于细菌等一些缺少重复序列的小基因组(<10Mb)生物的全基因组测序,虽然Celera公司采用此法来测定人类基因组序列,但在序列拼接时还是借用了大量的HGP公布的数据才能组装成功,因为随着所测基因组总量增大,所需测序的片段大量增加,构建重叠群所需要处理的数据分析量非常大,同时高等真核生物(如人类)基因组中存在着大量重复序列,它们分散在整个基因组中,在序列组装时容易出现错误连接。

(二)“基于图谱”(map-based)的基因组拼接序列

又称“克隆亚克隆”(clone-by-clone)方法,根据现有的技术水平,人类还无法对真核生物的基因组直接进行测序,只能采取分而治之的测序策略,即将基因组打碎成大片段(100~200kb)组建基因组文库(BAC文库),根据文库的限制性内切酶图谱拼接成克隆重叠群,然后借助于基因组特定位置的已知标记(如STS、SSLP和基因)等相关信息把克隆重叠群拼装成整条线性序列,构建基因组的物理图谱,它反映了文库中每个克隆片段在染色体上的具体位置以及和其他克隆的实际距离。

1.载体 为了了解该测序策略,我们首先介绍克隆大片段DNA的载体类型。

(1)酵母人工染色体(YAC):是一类酵母穿梭载体,只能在酵母中扩增,它是在染色体的基础上改造而来的,有3个重要的组成部分:①着丝粒(centromere,CEN),有丝分裂过程中纺锤体的结合位点,使染色体在分裂过程中能正确分配到子细胞中;②端粒重复序列(telomeric repeat,TEL),是染色体DNA分子末端的特殊序列,保护染色体末端免受核酸酶的降解,以形成稳定的结构;③自主复制序列(ARS)元件,是一段特殊的序列,含有酵母菌中DNA进行双向复制所必需的信号。构建YAC应具有自主复制序列、一个或多个在酵母中的选择性标记和至少一个克隆位点。所有这些元件总长为10~15kb,而酵母染色体长达230~1700kb,因此YAC可以接受100~1000kb的外源DNA片段,是目前容量最大的克隆载体。但也有一些缺点,如存在着插入片段的缺失(deletion)和基因重排(rearrangement)现象,以及容易形成嵌合体(嵌合就是在单个YAC中的插入片段由2个或多个独立的基因组片段连接组成),给以后的序列拼接带来很大的困难。

(2)细菌人工染色体(BAC):BAC载体是基于细菌的性因子(F因子)质粒的一些特点构建的,是一种高通量低拷贝的载体。F因子是细菌细胞内能自我复制的质粒,约100 kb,它能在细菌接合时转移1000kb的细菌染色体片段。将F因子经基因工程改良构成的BAC载体,可用于克隆100kb以上的DNA片段。带有外源片段的BAC载体在细菌细胞中通常仅单个拷贝,这一特点有利于保持DNA大分子,尤其是重复序列多的DNA大分子,在细胞内稳定复制而不发生重组。BAC载体本身相对分子质量小,如由小F质粒构建的载体pBeloBACⅡ全长7.4kb,仅带有自我复制、控制拷贝数(repE)及质粒分配(par E、par A和par B)所必需的最少序列。它还具有氯霉素抗性选择基因及多克隆位点。在多克隆位点两侧,有T7及SP6启动子位点,用于制备RNA分子,进一步分析克隆的基因表达,作为染色体步行的探针,以及序列测定克隆的片段。

(3)P1噬菌体载体(Bacteriophage P1vectors):P1噬菌体载体是Sternberg基于P1噬菌体构建的,与黏粒载体工作原理比较相似的一种高通量载体。它含有很多P1噬菌体来源的顺式作用元件,能容纳70~100kb的基因组DNA片段。在这种系统中,含有基因组和载体序列的线状重组分子在体外被组装到P1噬菌体颗粒中,后者总容量可达115kb(包括载体和插入片段)。将重组DNA注射到表达Cre重组酶的大肠埃希菌中,线状DNA分子通过重组于载体的两个loxP位点之间而发生环化。另外,载体还携带一个通用的选择标记kanr,一个区分携带外源DNA克隆的阳性标记sacB以及一个能够使每个细胞都含有约一个拷贝环状重组质粒的P1质粒复制子。另一个P1复制子(P1裂解性复制子)在可诱导的lac启动子(IPTG诱导)控制下,用于DNA分离前质粒的扩增。

(4)P1人工染色体(P1artificial chromosomes,PAC):PAC结合了P1载体和BAC载体的最佳特性,包括阳性选择标记sacB及噬菌体P1的质粒复制子和裂解性复制子。然而除了将连接产物包装进入噬菌体颗粒以及在cre-loxP位点使用位点特异性重组产生质粒分子以外,在载体连接过程中产生的环状重组PAC也可能用电穿孔的方法导入大肠杆菌中,并且以单拷贝质粒状态维持。基于PAC的插入片段为60~150kb。

2.物理图谱的构建 提取并纯化基因组DNA,然后用超声波或者限制性内切酶(部分酶切)切割DNA分子,得到长度为100~200kb的片段,构建BAC文库,为了使得文库能覆盖整个基因组,需要构建的文库达到10倍以上的覆盖率。为了获得BAC文库的“指纹图谱”,需要从每个BAC克隆中提取。目前,常用的物理作图方法有:限制性内切酶、荧光原位杂交和序列标记位点。

(1)限制性内切酶作图:基因组DNA构建成BAC文库(插入片段100~200kb)时,为了使得文库能覆盖整个基因组,需要构建的文库达到10倍以上的覆盖率。将每个BAC克隆中提取的DNA经过限制性内切酶消化,得到的片段经过琼脂糖凝胶电泳分离,这些限制性片段给出了每一个BAC的指纹图谱。通过电脑比较不同克隆的指纹图谱,找出相互有重叠的克隆,从而确定BAC相互的排列次序,即指纹克隆重叠群。限制性内切酶作图虽然快速、简便、能提供详细的定位信息,但它不能用于大基因组作图。

(2)荧光原位杂交(FISH):能应用于大基因组,但是其操作困难,数据积累慢。

(3)序列标记位点(STS)作图:STS是一段短的DNA序列,长度为100~500bp,它的序列必须是已知的,同时要求在全基因组上有唯一的定位。STS是从表达序列标签(EST)、简单序列长度多态性(SSLP)和随机基因组序列中获得。STS作图的原理是两个STS标记间的距离是根据分离频率来计算的,即两个STS相当接近,它们存在于同一克隆片段的机会就大,反之可能性就小。作图时基因组DNA的重叠片段群可以是放射杂交体,也可以是基因组文库,通常用PCR方法对每一个STS进行排序,了解哪些片段包含有哪些STS,分析STS的数据可用来构建物理图谱。指纹克隆重叠群可以通过已经存在的遗传图和物理图上的STS标记定位于染色体上。STS作图是目前最有效的物理作图技术。

3.测序和组装 根据物理图谱,寻找出拥有最小重叠的克隆群,对每一个BAC克隆进行鸟枪法测序,并进行片段组装,最后形成一张完整的基因组序列图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈