首页 理论教育 人类基因组研究的主要内容

人类基因组研究的主要内容

时间:2022-05-20 理论教育 版权反馈
【摘要】:简短串联重复作为遗传标记使人类基因组的遗传制图与连锁分析发生了革命性的变化。人类基因组的细胞遗传学图最终在分子水平上与序列图统一。人类基因组计划最终将测定出人类基因组的全部序列。确定每一个基因,研究它的结构、特性和功能是人类基因组计划的另一个重要内容。

第3节 人类基因组研究的主要内容

(一)遗传图谱

遗传图谱(genetic map)又称连锁图(linkage map),是指基因或DNA标志在染色体上的相对位置与遗传距离。遗传距离通常由基因或DNA片断在染色体交换过程中分离的频率(单位为cM)来表示。1cM表示每次减数分裂的重组频率为1%。频率越高表明两点之间距离越远,频率越低表示两点间距离越近。

遗传图谱的绘制需要应用多态性标志。最早的应用标志是应用限制性酶切片段长度多态性(restriction fragment length polymorphism,RFLP)进行遗传图谱的绘制。20世纪80年代后期,人们开始应用简短串联重复序列(short tandem repeat,STR)即微卫星(microsatellite,MS)标记绘制图谱。1994年底,美、法完成了以限制性酶切片段长度多态性及微卫星DNA为标志的遗传图谱,图谱包含了5826个位点,覆盖4000cM,分辨率高达0.7cM。最近,第三代的多态性标志,即单个核苷酸的多态性(single nucleotide polymorphism,SNP)标志又被大量使用,其意义已超出了遗传作图的范围,同时成为研究基因组多样性和识别、定位疾病相关基因的一种新手段。标记越细找到东西就越方便,在过去若干年里,标记已有几次从“粗”到“细”的演变。

第一代标记是经典的遗传标记,最初主要是利用蛋白质和免疫学的标记,如ABO血型位点标记、HLA位点标记。但由于已知多态的蛋白质很少,等位基因的数目有限且无法获得足够的信息量和检测技术的烦琐等因素,限制了人类基因组的遗传分析工作,这促使人们开始设法从DNA上寻找标记。

20世纪70年代中后期建立起来的限制性片段长度多态性方法在整个基因组中确定的位点数目达到105个以上,该系统一经建立就广泛应用到基因组的研究中。限制性酶切片段长度多态性最成功的运用是在亨廷顿舞蹈症的基因定位。然而,限制性酶切片段长度多态性可提供的信息量很有限,并且有时还需用放射性同位素标记的DNA片段为探针检测限制性酶切片段长度多态性,因而又存在着工作环境和费用等问题。

第二代标记称小卫星中心(minisatellite core)和微卫星标记(microsatellite marker),它们分别是1985年和1989年发现的。微卫星标记又称简短串联重复(short tandem repeat,STR),最重要的优点是高度多态性,提供的信息量相对很大;另外可用PCR技术使操作实现自动化。这一系统是目前在基因定位的研究中应用最多的标记系统。

简短串联重复的遗传学图距是以厘摩(cM)为单位的,是反映基因遗传效应的基因组图。简短串联重复作为遗传标记使人类基因组的遗传制图与连锁分析发生了革命性的变化。法国与美国合作,于1996年初已经建立了有6000多个以STR为主体的遗传标记,两个标记之间的平均距离为0.7cM,即两个位点之间有0.7%的概率可以重组。

第三代标记是被称为单核苷酸多态性标记的遗传标记系统。人类群体有很大的遗传多样性,而在大多数基因位点上都会有若干个等位型(alleles)。对每一个核苷酸来说,在任何一代人群中大约每1×109个个体就会发生一次变异。由这种方式产生的单碱基变异就形成许多双等位型标记。这种标记在人类基因组中可达300万个,平均每1000个碱基对就有1个。因此,3~4个相邻的这种标记构成的单倍型(haplotype)就有8~16种,相当于1个微卫星标记形成的多态性。这种标记数目多,覆盖密度大,它的开发和应用摒弃了遗传标记分析技术的瓶颈——凝胶电泳,为DNA芯片技术应用于遗传作图提供了基础。

(二)物理图谱

物理图谱(physical map)是以已定位的DNA序列作为标志,以DNA实际长度(bp、kb、Mb)为图距进行基因作图。物理图谱反映的是DNA序列上两位点之间的实际距离,而遗传图谱则反映这两位点之间的连锁关系。

完整的物理图应包括人类基因组的不同载体DNA克隆片段重叠群图、大片段限制性内切酶切点图、DNA片段(探针)或一段特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征性序列等的标记图。人类基因组的细胞遗传学图最终在分子水平上与序列图统一。

根据物理图谱的原定目标,首先要获得分布于整个基因组的3万个序列标签位点(sequence tagged site,STS)。标签位点是指染色体定位明确,并且可用PCR扩增的单拷贝序列,每隔100kb就有一个标志。然后,在此基础上构建能够覆盖每条染色体的大片段DNA连续克隆系。转录图(transcription map)是以表达序列标签(expressed sequence tag,EST)为标志绘制的图谱。人类基因组中的基因数目约为10万个,其转录产物mRNA正不断地被测序成EST,在EST图谱的基础上,测序的结果就是STS,经综合可参与组成人类基因组序列。

构建物理图谱的一个主要内容是把含有STS对应序列的DNA克隆片段连接成相互重叠的“片段重叠群”(contig)。以酵母人工染色体(YAC)作为“载体”载有人类DNA片段的文库已包含了构件总体覆盖率为100%、具有高度代表性的“片段重叠群”。近几年又发展了可靠性更高的BAC库、PAC库和cosmid库等。

(三)DNA序列测定

人类基因组计划最终将测定出人类基因组的全部序列。这种序列测定不同于以往那种只对某一个特定的感兴趣的区域进行DNA序列分析的工作。它要求一种更高效的规模测序,并将测出的每一个DNA片段按其染色体位置进行准确的排列,从而得到人类基因组DNA序列碱基排列的全貌。这是一个很艰巨的任务,目前主要用自动测序方法来测定。2003年4月通过国际合作,人类基因组的序列测定已基本完成。

(四)基因的确定和分析

确定每一个基因,研究它的结构、特性和功能是人类基因组计划的另一个重要内容。通过对人类基因组全部DNA序列的测定,可以利用数据库比对找出分布在DNA两条互补链上所有可能编码蛋白质的基因。其中有一部分是人类已了解的基因,但更多的是我们尚不完全了解的“基因框架”,即开放阅读框(ORF)。在DNA结构特征上,开放阅读框含有翻译的起始密码子外显子内含子的剪接信号、翻译终止信号及3′端的poly(A)加尾信号。人们可以根据中心法则预测某种开放阅读框编码的蛋白质的氨基酸序列,甚至这个蛋白质的空间结构和功能。但真正破译所有的开放阅读框的功能及其生物学意义还需要相当长的时间。目前的人类基因组研究只是为实现这一最终目标提供最基本的DNA序列以及基因的结构特征。

弄清人类基因组序列和结构后的下一步工作为“后基因组计划”,其研究内容就是对基因组的功能进行探索,描绘出一张完整的基因图谱,该图谱能有效地反映在正常或受控条件下表达的全基因的时空图。通过这张图我们可以了解某一基因在不同时间、不同组织、不同水平的表达。有了“正常”的基因图谱,就奠定了构建特定生理条件下(如受外源的病原体、药物、食物、精神刺激等因素的影响)与“异常”病理情况下cDNA差异图的基础,以此为21世纪的基因医学绘制出指导的蓝图。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈