首页 百科知识 基因重复序列

基因重复序列

时间:2022-10-19 百科知识 版权反馈
【摘要】:重链和轻链上的编码物各不相同,人类线粒体基因组共编码了37个基因。一般概念上的基因组是指核基因组,约含3.2×109bp的DNA分子。因此基因及其相关序列仅占总基因组一小部分。人类基因组中存在“绿地”和大片“荒漠”。不同基因在基因组中的拷贝数也有很大的差异,这主要是进化过程中细胞对特定基因产物需求的不同造成的。由于这类序列的碱基组成不同于其他部分,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星D
人类基因组_分子医学导论

二、人类基因组

人类基因组包括核基因组和线粒体基因组。

线粒体基因组的序列(又称剑桥序列)共含16569个碱基对(bp),为一条双链环状的DNA分子。双链中一为重链(H),一为轻链(L)。重链和轻链上的编码物各不相同,人类线粒体基因组共编码了37个基因。重链上编码了12SrRNA(小rRNA)、16SrRNA(大rRNA)、NADH-CoQ氧化还原酶1(NADH-CoQ oxidoreductase1,ND1)、ND2、ND3、ND4L、ND4、ND5、细胞色素C氧化酶1(cytochrome CoxidaseⅠ,COXⅠ)、COXⅡ、COXⅢ、细胞色素b的亚基、ATP合酶的第6亚单位和第8亚单位(A6、A8)及14个tRNA等;轻链上编码了ND6及8个tRNA。

一般概念上的基因组是指核基因组,约含3.2×109bp的DNA分子。人类基因的平均长度为27kb,其中编码序列的平均长度为1~1.5kb。根据目前的估算,人类基因的总数只不过20000个,这个数字在基因识别技术改进后可能还会有变化。因此基因及其相关序列仅占总基因组一小部分。其余的DNA序列包括基因之间的间隔序列、重复序列等。目前,对它们的功能知之甚少,已有的研究表明其中一些序列有着特殊的生理意义,包括:调节基因的表达,增强同源染色体之间的配对和重组,维持染色体结构,调节前mRNA的加工以及参与DNA的复制等。

(一)人类功能基因的组织与分布

人类基因组中存在“绿地”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA”(不包含或含有极少基因的成分)。基因组上大约有1/4的区域没有基因的片段(图1-3)。不同基因在基因组中的拷贝数也有很大的差异,这主要是进化过程中细胞对特定基因产物需求的不同造成的。根据基因组中的功能序列的拷贝数及分布特点,将其分为4大类,即单一基因、基因家族、串联重复基因和已失去功能的假基因

img5

图1-3 人类基因组的组织结构

1.单一基 因在人的基因中,25%~50%的蛋白质基因在单倍体基因组中只有1份或少数几份,故又称为单一基因(solitary gene)或单一序列(unique sequence)。

2.基因家族 从动物细胞中已克隆出的许多基因中发现,它们有的是重复的多拷贝,但不同拷贝之间还略有差异,这一部分基因属于2个或更多个相似基因的家族。在脊椎动物中,这类成倍基因(duplicated gene)构成编码蛋白质基因约一半。它们编码的蛋白质相似,但其氨基酸序列不完全相同,称之为基因家族(gene family),类同的蛋白质组成蛋白质家族(pro-tein family),其蛋白质成员由数个到数十个,个别的可达数百。β珠蛋白基因家族包括5个功能基因:β、δ、Aγ、Gγ和ε,它们分别在生活史的不同阶段表达,各具有不同的功能作用。细胞骨架蛋白、肌动蛋白、管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同一个体的不同的细胞类型呈现差别性表达,以合理搭配,发挥其生理作用。基因的成倍性、趋异性对进化是有益的,它可以扩大和发展基因的特定功能。成倍基因的产生机制,可能是在减数分裂时重复DM序列之间发生不等交换的缘故。

3.假基因 在人的β珠蛋白基因家族中至少有两个区的序列ψβ1和ψβ2与有功能的β珠蛋白基因相似,但是它没有相应的蛋白质产生,所以叫做假基因(pseudogene)。其他许多基因家族如HLA、snRNA、免疫球蛋白基因家族等都发现有额外的、近似的基因拷贝存在。拟基因是一种畸变基因,即核苷酸序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入以致不能表达,所以也就没有功能。

4.串联重复基因(tandemly repeated genes) 45SrRNA、5SrRNA、各种tRNA基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重复基因。它们不同于成倍基因,编码了同一种或近乎同一种的RNA或蛋白质,rRNA、tRNA基因的每个拷贝完全或几乎完全相同,但是在基因间由间隔DNA(linker DNA)分隔,组蛋白基因家族较复杂,而每种组蛋白基因的拷贝也完全相同。

串联重复基因的存在是符合细胞的需要的。以HeLa细胞的前体rRNA合成为例,细胞每个世代需要500万~1000万个核糖体,需要100个前体rRNA基因才能使细胞每24小时分裂一次。在果蝇的胀泡突变体中,当rRNA基因少于50个时,就是致死性突变。5SrRNA基因量也是很大的,人有2000个,蛙有2000个,tRNA基因量在10~100个之间。组蛋白是真核细胞特大含量的蛋白质,几乎与核内DNA等量,每一种组蛋白至少占细胞全部蛋白质的0.5%~1.0%。而且组蛋白mRNA的寿命短。在细胞周期的1/3时间是DNA合成期,在DNA合成的同时进行着组蛋白合成,所以存在于多细胞生物体细胞的组蛋白重复基因有50~500个之多。

(二)基因组内非基因序列的结构特点

基因组中的非基因序列的研究较少,对其功能也知之不多,但有一点可以肯定,它们并不都是原来认为的“无用”DNA。这些DNA中存在着大量不同形式的重复序列,重复多拷贝序列有的较短,有的较长,可分布于整个基因组,这些重复DNA是通过变性复性实验而被发现的,重复DNA复性较非重复DNA快,而根据复性的速度,又可分为高度重复DNA和中度重复DNA。这里主要介绍这些重复序列的特点。

1.高度重复序列 高度重复序列包括:①反向重复序列由两个相同序列的互补拷贝在同一DNA链上反向排列而成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对,形成发夹式或“+”字形结构。倒位重复(reverse duplication)(即两个互补拷贝)间可有一到几个核苷酸的间隔,也可以没有间隔。没有间隔的又称回文(palindrome)结构,这种结构约占所有倒位重复的1/3。倒位重复的单位约长300bp,它们多数散布非群集于基因组中。②卫星DNA(satellite DNA)是另一类高度重复序列,这类重复序列的重复单位一般由2~10bp组成,成串排列,重复次数可>106。由于这类序列的碱基组成不同于其他部分,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。按照它们的浮力密度不同,人的卫星DNA可分为Ⅰ、Ⅱ、Ⅲ、Ⅳ4种。通过原位分子杂交可知,它们中的大多数位于染色体的着丝粒,果蝇中也发现它可位于染色体的臂和端粒区,而进一步分析表明它是位于染色体的异染色质区。另外还有一种位于染色体着丝粒附近的高度重复序列,重复单位为172bp,这种序列大部分由交替变化的嘌呤和嘧啶组成,有人把这类称为α卫星DNA。卫星DNA可能与染色体减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA序列。③小卫星DNA(minisatellite DNA)由15~100个寡核苷酸组成的重复单位(常富含GC),重复20~50次形成的1~5kb的短DNA,又称为VNTR(variable number of tandem repeats),比上述的卫星DNA(105bp)短。④微卫星DNA(microsatellite DNA)的重复序列为6bp~1kb,如(A)n/(T)n、(CA)n/(TG)n、(CT)n/(AG)n等。由于这些微卫星DNA区域在人类基因组中出现的数目和频率不同,而表现为多态性,因而为人类遗传分析提供了大量的多态遗传标志。由于个体间小卫星DNA及微卫星DNA长度的变化,可用分子杂交方法,以少量的小卫星DNA或微卫星DNA探针即可检测DNA个体差异(两人相同的可能性为9.5×10-22),是一种新的DNA指纹方法。这种新的DNA标记系统,其多态信息量大于RFLP,可用于基因定位、群体进化、基因诊断等研究。近年来在脆性X综合征、脊髓小脑性共济失调和Huntington舞蹈症等疾病中发现微卫星DNA如(CAG)n、(CTG)n等的不稳定性,往往发生核苷酸三体重复扩增突变(trip1et repeat amplification mutation)。

2.中度重复DNA和可动DNA 中度重复DNA(intermediate repeat DNA)是以不同的量分散地分布于整个基因组的不同部位,可占整个基因组的10%以上。这些间隔的DNA长度可短至150~300bp(short interspersed elements,SINES),也可长5000~6000bp(long interspersed elements,LINES),重复次数在102~105之间,如果从序列的重复次数来看,rRNA基因、tRNA基因、组蛋白基因等也属于中度重复序列。

在研究中度重复DNA过程中了解到,它们在量上和染色体位置上存在着广泛的变化,被称为可动DNA因子(mobile DNA elements)。从对酵母菌一直到人类的可动因子研究中,发现了一类重复DNA,叫反转录子(retroposon,retrotransposon),它们由DNA转录的RNA为中间物,再通过反转录酶的作用,从RNA→DNA,合成的DNA又重新整合到基因组。

可动DNA因子为什么在基因组中大量存在?它们对生物体有无功能?是否只是单纯的无功能的分子寄生物(有人称之为“自在DNA”,selfish DNA),杂乱地堆放在基因组中,还是在进化中有一定的作用,在基因组结构动态变化中发挥关键性影响?虽然它们中大多数在生物体生活史中无有用的功能,但它们可能影响进化。现在认为基因组的流动性有利于遗传多样性,它们在基因组中位置和含量的变化可以作为进化种子,发生内含子、增强子等新的重组(外显子穿梭,exon shuffling),衍生新的基因或基因结构域、调节区,以促进最优组合。原核细胞无反转录子,一般无内含子,其RNA降解快,限制了新基因的出现,而昆虫、哺乳类的进化优势可能与含大量反转录子有关。新近研究表明,一些中度重复序列还可能具有转录调节作用并参与了hnRNA的加工与成熟。

SINES、LINES是哺乳类基因组中最丰富的中度重复DNA,人类LINES长6~7kb,SINES长300bp,人类基因组中最常见的是L1家族,有50000个拷贝,占基因组的5%,L1可动性的证据是近年来分析两个都患有X染色体突变遗传病的男患者:一个患有血友病,一个患有Duchen-ne肌营养不良,第Ⅷ凝血因子基因和dystrophin基因的克隆和序列分析证明,基因突变不是来自母亲的X染色体,而是L1的插入而引起的。另一类人类SINES是Alu家族(Alurepetitive se-quence,由于有内切酶AluⅠ识别切点),长为5kb,基因组约有500000个拷贝,也占基因组的5%,还发现有10bp短的类Alu序列(Alu-equivalent family)分散在基因和内含子之间。神经母细胞纤维瘤是由于NF1抑癌基因突变,一患者中发现2个NF1等位基因之一有一新的Alu序列,使NF1基因失活,当另一个NF1基因发生突变,进而造成肿瘤的发生。某些隐性遗传病也被发现是由于Alu序列插入到外显子中,致使蛋白编码区遭受毁损。除以上之外,还发现有一些小分子RNA以及一些无功能mRNA,通过反转录插入到基因组DNA中去。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈