首页 理论教育 人类基因组研究的方法和策略

人类基因组研究的方法和策略

时间:2022-05-20 理论教育 版权反馈
【摘要】:现在酵母人工染色体克隆体系已成为构建复杂基因组的有力手段。被克隆至P1噬菌体载体内的DNA不易发生重排或缺失,是复杂基因组研究中的一个新的DNA系统。人类基因组分析的一个重要内容是确定所有的单基因,通过研究单基因的结构、特性和功能,达到了解这些基因同人类健康、疾病和发育的内在关系。功能克隆是人类第一个基因克隆的策略。实际工作中不可能等到人类基因组DNA全部序列都测出之后,再去逐一了解每个基因的结构和功能。

第4节 人类基因组研究的方法和策略

(一)大片段外源DNA克隆体系

1.酵母人工染色体克隆体系

酵母人工染色体(YAC)克隆体系是20世纪80年代末发展起来的并于1990年底渐趋完善的大片段外源DNA克隆体系(图12-1)。插入酵母人工染色体克隆体系载体的外源DNA片段为200~2000kb甚至更多,宿主为酵母,能稳定复制。现在酵母人工染色体克隆体系已成为构建复杂基因组的有力手段。

img268

图12-1 酵母人工染色体克隆体系示意图

img269

图12-2 cosmid示意图

2.黏粒、P1噬菌体和细菌人工染色体

黏粒(cosmid)是一种由质粒和λ-phage改建的载体(图12-2),改建后只含λ-phage的复制起点、质粒的抗性标记及黏性末端,本身仅长5kb,可带大小为33~44kb的外源DNA,多用于高等生物基因文库的构建。黏粒克隆的出现早于酵母人工染色体克隆体系,其主要特点是插入的外源片段比λ噬菌体克隆大一倍。因此在筛选基因文库时可以减少一半工作量。P1噬菌体(PAC)是噬菌体P1和大肠杆菌F因子系统结合,是从野生型P1噬菌体DNA改造而来的一种DNA载体克隆系统。被克隆至P1噬菌体载体内的DNA不易发生重排或缺失,是复杂基因组研究中的一个新的DNA系统。

细菌人工染色体(BAC)是以大肠杆菌F因子为基础构建的一种DNA载体(图12-3),携带片段大小为300kb,一般用于DNA克隆的载体系统。其优点是具有较高的复制效率,每个细胞中,一个载体分子能繁殖多个拷贝;其缺点是有时出现插入片段在结构上不稳定。

img270

图12-3 细菌人工染色体示意图

3.重叠克隆群

重叠克隆群(contig,overlapping sets of cloning)图谱即contig图谱,是最经典的高分辨率物理图谱(图12-4)。把染色体切割成小片段后,克隆并排序,得到由排好序的插入DNA片段克隆组成的重叠群,构建能覆盖每条人类染色体而重叠度最小的连续克隆系,是进行大规模基因组DNA测序的基本条件。

(二)人类基因组研究的基本思路

(1)建立含有在人类大片段DNA的重叠克隆群(contig),可用不同的重组载体如cosmid、YAC、PAC和BAC。

(2)用高频分布、易于检索的DNA标志或者DNA指纹图谱建立克隆之间的联系,组成排列有序的连续克隆系。最常使用的DNA标志有序列标签位点(sequence tagged site,STS)(图12-5)和表达序列标签(expressed sequence tag,EST)。

img271

图12-4 重叠克隆群示意图

(3)将克隆群定位于染色体的不同区域,构成完全基因组物理图谱。

(4)进行次级克隆和序列分析。

(三)确定特定的基因

1.通过DNA全序列分析确定基因

当人们完成了全部DNA测序工作后,可以利用计算机分析,找出分布在DNA两条互补链上的所有可能的ORF和孤儿基因(unigene),即尚未了解其功能和生物学意义的基因。再通过对孤儿基因的进一步分析来寻找其功能。可以通过以下几个途径来进行。

(1)将孤儿基因的DNA序列与数据库中的数据进行比较,了解其是否表达以及表达的时空特异性,并根据这些提示去研究该基因的功能。

(2)根据该基因编码蛋白质氨基酸序列,分析其功能结构域及可能的空间结构,再结合染色体定位,研究与同样定位在该染色体区带上的遗传性状或疾病的联系,确定其功能。

(3)在实验动物中寻找它的同源基因,进行基因敲除,观察实验动物的生物学改变,以了解该基因的功能。

人类基因组分析的一个重要内容是确定所有的单基因,通过研究单基因的结构、特性和功能,达到了解这些基因同人类健康、疾病和发育的内在关系。

2.功能克隆

功能克隆是人类第一个基因克隆的策略。实际工作中不可能等到人类基因组DNA全部序列都测出之后,再去逐一了解每个基因的结构和功能。在实际研究中,研究者常常是先认识了一个基因,知道了它的功能之后,才去分离并测定其结构的。进行这一工作的步骤如下。

img272

图12-5 人类ctg27中的部分STS分布图

(1)根据已知的生化缺陷特征确认与该功能有关的蛋白质。

(2)分离纯化这一蛋白质并测定出部分氨基酸顺序。

(3)根据遗传密码推测其可能的mRNA序列。

(4)设计相应的核苷酸探针,杂交筛选cDNA或基因组DNA文库,最终获得整个编码区乃至全基因序列。

3.定位克隆

由于许多基因遗传病的基因位点已经有了精确的染色体定位和相应的DNA标记,所以可以用定位克隆的策略分离这些基因。Duchenne型肌营养不良、慢性肉芽肿、亨廷顿舞蹈病等几十个基因的克隆分离就依靠此种方法。此种方法的步骤如下。

(1)通过染色体缺失或平衡易位以及连锁分析,确定该基因在染色体上的位置,并将这个位置精确到2000kb左右的范围内。

(2)利用距离该基因最近的DNA标志,筛选YAC库,采用染色体步移技术获得覆盖这个基因位点的一组连续的YAC克隆。

(3)在这个DNA区域内寻找基因,可采用筛选cDNA文库、外显子捕获(exon trapping)、物理捕获(physical trapping)等方法确定该区域内表达序列的手段和寻找保守序列,寻找基因。

4.鉴定基因

首先通过对某个基因编码蛋白质的氨基酸序列进行分析,确定它属于哪一类蛋白质,可能具有哪些功能。

如果是一个遗传病相关基因,应分析患者群体中该基因是否存在DNA突变,以及这些突变是否为该类疾病的特异突变,同时考察有无种族特异性。

进一步可用动物模型来鉴定这个基因,如基因敲除(knock out)或敲入(knock in)动物检验。

鉴定一个基因往往需要众多科学家合作,如亨廷顿舞蹈病基因的克隆,就是由国际上多个高水平研究小组组成的团体共同努力完成的。

目前许多人体新基因及其功能被发现和研究,例如,IGF2R基因与智力发育相关,TBX5基因异常可导致心脏和上肢畸形等。美国科学家确定引发青光眼的直接原因是TIGR基因发生变异,此外还发现了结节状硬化症基因TSC1、新生儿癫痫病基因KCNQ2、胆固醇病基因NPC1、秃发基因、耳聋基因及与溃疡病有关的基因、反应迟缓基因等;与白血病、艾滋病和克雅氏症有关的基因也在进一步的研究中。人体新基因的研究将有助于了解各种遗传病、癌症、心脑血管疾病及神经病和精神病的发病机制,提供诊断和防治途径,有助于从人类基因组中去除有害基因,从根本上治疗这些疾病。

5.人类基因组研究展望

(1)生命科学在工业和商业中的应用。由于基因组研究与制药、生物技术、农业、食品、化学、化妆品、环境、能源和计算机等工业部门密切相关,更重要的是基因组的研究可以转化为巨大的生产力,国际上一批大型制药公司和化学工业公司纷纷投入巨资进军基因组研究领域,形成了一个新的产业部门。

传统的农业和食品部门也出现了向生物技术和制药合并的趋势。Genzyme Transgenics公司培养出的基因工程羊能以较高的产量生产抗凝血酶Ⅲ。转基因动物生产的药物成本是大规模细胞培养法的1/10。一些公司还在研究、生产能抗骨质疏松的谷物,以及大规模生产和加工基因工程食品。

能源、采矿和环境工业也已在分子水平上向基因组研究汇合。例如,用产甲烷菌作为一种新能源;用抗辐射的细菌清除放射性物质的污染,并在转入特定基因后,在高辐射环境下清除多种有害化学物质的污染。

(2)功能基因组学人类基因组计划的整体研究在顺利实现遗传图和物理图的制作后,结构基因组学已完成染色体的完整核酸序列图,紧接着功能基因组学已提上议事日程。人类基因组计划已开始进入由结构基因组学向功能基因组学过渡、转化的过程。在功能基因组学研究中,可能的核心问题有基因组的表达及其调控、基因组的多样性、模式生物体基因组研究等。

一个细胞的基因转录表达水平能够精确而特异地反映其类型、发育阶段以及反应状态,是功能基因组学的主要内容之一。研究基因转录表达可以获得全基因组表达的数据,解析控制整个生物个体发育过程或反应通路的基因表达的机制,如基因互作的效应、基因表达在时间和空间上的多效性等。

蛋白质组学研究是从整体水平上研究蛋白质的水平和修饰状态。目前正在发展标准化和自动化的二维蛋白质凝胶电泳的工作体系。首先用一个自动系统来提取人类细胞的蛋白质,继而用色谱仪进行部分分离,将每区段中的蛋白质裂解,再用质谱仪分析,并在蛋白质数据库中通过特征分析来认识产生的多肽。蛋白质组研究的另一个重要内容是建立蛋白质相互关系的目录。生物大分子之间的相互作用构成了生命活动的基础。组装基因组各成分间的详尽作图已在T7噬菌体(55个基因)获得成功。如何在模式生物(如酵母等)和人类基因组的研究中建立自动方法,认识不同的生化通路,仍是值得探讨的问题。

生物信息学已大量应用于基因的发现和预测。利用生物信息学去发现基因的蛋白质产物的功能更为重要。模式生物体中越来越多的蛋白质构建编码单位被识别,无疑为基因和蛋白质同源关系的搜寻和家族的分类提供了极其宝贵的信息。同时,生物信息学的算法、程序也在不断改善,使得研究者不仅能够从一级结构,也能从估计结构上发现同源关系。但是,利用计算机模拟所获得的理论数据,还需要经过实验的验证和修正。人类基因组序列(HGP)的世界性规模和序列信息的爆炸性增长,如此大量信息的合理应用与发展,一开始就要求它与信息高速公路和数据库技术同步发展。国际上的四个最大的生物信息中心,即美国的国家生物技术信息中心(National Center for Biotechnological Information,NCBI)、基因组序列数据库(Gene Sequence Data Bank,GSDB)、欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)已就此建立了源自数百种生物的基因组DNA序列的大型数据库。它发布在互联网上,可与全世界基因组研究实验室通过网点、电子邮件联系,或直接与服务器、数据库联系,促成了生物信息学的形成。例如在大多数电脑中均可使用的Entrez系统,是一个容易操作的、综合性的数据库与重查系统。界面中核酸是指来自四大中心已报道的DNA基因序列、EST序列、STS序列、专利序列,不仅与其编码的蛋白质氨基酸序列库相联系,还与该序列数据的NCBI的生物学分类相联系;此外,这四个中心的数据库又与医学文献数据库(MEDLINE)相联系,可从美国国家图书馆4000多种生物医学杂志、120万篇文献中找出相应的文献。这一数据库的内容不断更新,任何人或机构均可自由地通过网络进行利用,大大促进了HGP的发展。

基因组研究多样性地研究不同群体和个体在生物学性状以及在对疾病的易感性与抗性上的差别,反映了进化过程中基因组与内、外部环境相互作用的结果。开展人类基因组多样性的系统研究,无论对于了解人类的起源和进化,还是对于生物医学,均会产生重大的影响。

在人类基因组的研究中,模式生物体的研究占有极其重要的地位。尽管模式生物体基因组的结构相对简单,但是它们的核心细胞过程和生化通路在很大程度上是保守的。以大肠杆菌、酵母、线虫、果蝇、小鼠等作为模式生物,特别是使用基因敲除的方法,便于对其进行大规模功能基因组学研究,观察基因表达被阻断后在细胞和整体所产生的表型变化。

通过功能基因组学的研究,人类最终将能够了解哪些进化机制已经确实发生,并考虑进化过程还能够有哪些新的潜能。一种新的解答发育问题的方法可能是,将蛋白质功能域和调控顺序重新组合,建立新的基因网络和形态发生通路。也就是说,未来的生物科学不仅能够认识生物体是如何构成和进化的,而且更为诱人的是产生构建新的生物体的可能潜力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈