首页 理论教育 基因中插入一条dna序列如何转录

基因中插入一条dna序列如何转录

时间:2022-05-20 理论教育 版权反馈
【摘要】:基因的最初概念源于Mendel的“遗传因子”。1910年Morgan通过果蝇杂交实验指出,基因呈直线排列于染色体上,基因是遗传的基本单位,即突变单位、重组单位和功能单位。1951年美国遗传学家McClintock提出了跳跃基因的概念,认为基因成分可从一个位置转移到另一个位置。1961年法国遗传学家Jacob和Monod提出的操纵子模型进一步丰富了基因的概念。随后,Gilbert提出断裂基因的概念,即基因是表达的外显子镶嵌在沉默的内含子中的一种嵌合体。

第2节 基因的概念

一、基因概念的发展

人们对基因的认识经历了一个不断发展的过程(表3-1)。基因的最初概念源于Mendel的“遗传因子”。Mendel认为生物的性状是由遗传因子(hereditary determinant)控制的,每一种性状都分别由一对遗传因子控制,控制性状的遗传因子是遗传的,而性状本身是不能遗传的。1909年,丹麦学者Johannsen提出用“基因”(gene)这个名称代替“遗传因子”。1910年Morgan通过果蝇杂交实验指出,基因呈直线排列于染色体上,基因是遗传的基本单位,即突变单位、重组单位和功能单位。1951年美国遗传学家McClintock提出了跳跃基因的概念,认为基因成分可从一个位置转移到另一个位置。如哺乳动物基因组中的长散在重复序列(long interspersednuclear elements,LINE)、短散在重复序列(short interspersed nuclear elements,SINE)等。1957年Benzer提出顺反子(cistron)的概念,把基因具体化为一段特定的DNA分子即储存遗传信息的功能单位,其内部是可分的,包含多个突变单位和重组单位。1961年法国遗传学家Jacob和Monod提出的操纵子模型进一步丰富了基因的概念。基因在功能上可分为编码蛋白质的基因和调节基因。基因不仅能单独发挥作用,而且能在基因与基因之间相互制约、反馈调节的网络中发挥功能。1977年Chambon等发现基因内有间隔顺序。随后,Gilbert提出断裂基因的概念,即基因是表达的外显子(exon)镶嵌在沉默的内含子(intron)中的一种嵌合体。同年,研究人员发现了重叠基因(overlapping gene),即两个或两个以上的基因共用一段重叠的核苷酸序列。如人的Ⅰ型神经纤维瘤基因的第一个内含子中寄居着三个编码蛋白质的基因,凝血因子Ⅷ基因的第22内含子中有凝血因子Ⅷ相关基因。由此看来,外显子与内含子的区别并不是绝对的。

表3-1 认识基因的历程

img17

续表

img18

二、基因的类别与大小

(一)基因的类别

基因按其功能可分为以下几类。

1.结构基因与调节基因

结构基因(structural gene)是指能决定某种多肽链(蛋白质)或酶分子结构的基因。结构基因的突变可导致特定蛋白质(或酶)一级结构的改变或影响蛋白质(或酶)量的改变。调节基因(regulatory gene)是指某些可调节结构基因表达的基因。调节基因的突变可以影响一个或多个结构基因的功能,或导致一个或多个蛋白质(或酶)的改变。

2.核糖体RNA基因与转运RNA基因

核糖体RNA基因(ribosomal RNA gene)与转运RNA基因(transfer RNA gene)只转录产生相应的RNA,而不翻译成蛋白质。核糖体RNA基因也称为rRNA基因,它们专门转录rRNA;转运RNA基因也称为tRNA基因,是专门转录tRNA的。

以上各类基因之间通过相互作用,严密调控基因的有序表达,使各种生命活动表现出和谐与多样性。

(二)基因的大小

人类不同的基因的大小和内含子的数目、长短相差很大,表3-2列出了人类部分基因的大小和内含子的数目。

表3-2 人类部分基因的大小和内含子的数目

img19

三、真核基因的结构

绝大多数真核生物编码蛋白质的基因为断裂基因,即结构基因是不连续的,编码序列在DNA分子上被非编码序列所隔开。编码的序列称为外显子,是一个基因表达为多肽链的部分;非编码序列称为内含子,又称插入序列(intervening sequence,IVS)。结构基因在首尾两个外显子的外侧,有一段不被转录的非编码区,称为侧翼序列,它对基因的表达起调控作用(图3-2)。

img20

图3-2 真核基因的结构

(一)外显子和内含子

真核基因是不连续的,外显子与内含子相间排列,转录形成mRNA前体时一起被转录下来,然后mRNA前体中的内含子被剪切掉。外显子连接在一起成为成熟的mRNA,作为蛋白质合成的模板。每个外显子和内含子接头区都有一段高度保守的一致顺序(consensus sequence),即内含子5′末端大多数是GT开始,3′末端大多是AG结束,称为GT-AG法则,是普遍存在于真核基因中RNA剪接的识别信号。在人类基因组中,只有很少的结构基因无内含子序列,如SRY基因,组蛋白基因,干扰素α、β基因等,其编码序列呈连续状态,构成一个外显子。

由于存在可变剪接,外显子与内含子在表达过程中是相对的,基因中的外显子可被替换、增加或减少,形成不同的剪接本。有的内含子可因剪接方式的改变而可编码蛋白质,因而,内含子的存在增加了真核生物基因组的编码潜能。外显子的序列虽然转录成mRNA,但并不都编码产生蛋白质,mRNA的3′端和5′端非翻译区的外显子序列不编码氨基酸

(二)侧翼序列

侧翼序列一般位于结构基因的两侧,是非编码序列,但其中含有对基因表达有重要影响的调控序列,如启动子、增强子、终止子等。

1.启动子

启动子(promoter)是基因内与RNA聚合酶结合的DNA序列,通常位于基因转录起始位点的上游,对相应的编码区呈单方向性。常见的启动子序列包括TATA框、CAAT框和GC框。

(1)TATA框(TATA box)。其一致顺序多为TATAATAAT。它约在基因转录起始点上游19~27bp处,基本上由A-T碱基对组成。转录因子TFⅡD和RNA聚合酶Ⅱ能与启动子结合形成复合物,从而准确识别基因转录的起始位置。TATA框的作用还表现在可影响转录的速率。在伴清蛋白基因中,当TATA框突变为TAGA后,转录效率大大降低。兔的珠蛋白基因当TATA框的保守序列ATAAAA人工突变为ATGTAA时,转录效率会下降80%。人的β珠蛋白基因的ATAAA序列变为ATGAAA或ATAG/CAA时,珠蛋白产量也会大大降低,从而出现珠蛋白生成障碍性贫血。

(2)CAAT框(CAAT box)。其一致顺序为GGGTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约80bp处。CAAT框能和CTF(识别CAAT框的转录因子)相结合,控制转录起始活性。

(3)GC框(GC box)。有两个拷贝,位于CAAT框的两侧,由GGCGGG组成,是一个转录调节区,可被转录因子SP1所识别。它的作用是控制转录效率。

此外,RNA聚合酶Ⅲ负责转录tRNA的DNA和5SrDNA,其启动子位于转录的DNA顺序中,称为下游启动子。

2.增强子

在真核基因转录起始点的上游或下游,一般都有增强子(enhancer),它不能启动一个基因的转录,但有增强启动子活性的作用。增强子的位置不固定,能有很大的变动,它能在两个方向产生作用。一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。有人发现,如果将β珠蛋白基因放在含有72bp重复的DNA分子中,它的转录作用比在活体内将增高约200倍以上,甚至当此72bp顺序位于离转录起点上游1400bp或下游3000bp时仍有作用。

在人类基因组中,大多数基因的表达具有组织特异性、时间特异性和对激素等细胞间信息的反应的特异性,现在已发现了不少控制这些基因表达的特异性的增强子,例如免疫球蛋白基因的增强子只有在B淋巴细胞内活性才最高。除此以外,在胰岛素基因和胰凝乳蛋白酶基因的增强子中都发现有很强的组织特异性。

3.终止子

在一个基因的3′末端往往有一段特定顺序,它具有终止转录的功能,这段终止信号的顺序称为终止子(terminator),它包括AATAAA顺序和它下游的反向重复顺序。这一顺序可能对mRNA的加尾(mRNA尾部添加多聚A)有重要作用,它经转录后形成的发卡结构可阻碍RNA聚合酶的移动。发卡结构末尾的一串U与转录模板DNA中的一串A之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来。同时,RNA聚合酶也从DNA上解离下来,转录终止。

4.基因座控制区

在人类的一些成簇排列的基因中已发现一些位于基因上游和下游对DNA酶I高度敏感的核苷酸序列,称为基因座控制区(locus control region,LCR),它控制着基因表达的时空性。例如人类β珠蛋白基因簇的LCR由6个对DNA酶I高度敏感的位点组成,其中5个位于ε基因上游6~22kb之间,另一个位于β基因下游22kb处。

四、基因家族

真核生物的基因组中有许多来源相同、结构相似、功能相关的基因,称为基因家族(gene family)。这样的一组基因是由一个祖先基因通过重复进化而来的,基因家族的成员可以彼此形成基因簇或分居于不同的染色体上。基因家族的成员若集中分布在同一染色体的某一区域,则称为基因簇(gene cluster)。例如珠蛋白基因家族,它们由编码珠蛋白分子多肽链的基因组成。在人类的第16号染色体上发现了7个α-珠蛋白基因,在第11号染色体上发现了6个β珠蛋白基因。

五、假基因

1977年,G.Jacp在对非洲爪赡5SrRNA基因簇的研究后提出了假基因(pseudogene)的概念。假基因具有与功能基因相似的序列,但由于有许多突变,以致失去了原有的功能,所以假基因是没有编码功能的基因,常用ψ表示。假基因的发现是真核生物应用重组DNA技术和序列分析的结果。现已在大多数真核生物中发现了假基因,如Hb的假基因、干扰素、组蛋白、α球蛋白、β球蛋白、肌动蛋白以及人的rRNA和tRNA基因均含有假基因。

关于假基因的来源,一般认为是由mRNA反转录成cDNA,然后整合在基因组中。假基因同cDNA一样没有内含子序列,也没有启动基因转录的启动子序列,而在5′端都有mRNA分子特有的多聚腺苷[poly(A)]序列。由于假基因没有生物学功能,所以不再受到进化的选择压力,因此在假基因中可以积累许多突变。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈