首页 理论教育 知道基因序列怎么预测其转录因子

知道基因序列怎么预测其转录因子

时间:2022-05-03 理论教育 版权反馈
【摘要】:真核生物的基因由编码区和非编码区两部分组成。原核生物的基因绝大多数是连续编码的DNA分子片段。真核生物断裂基因中,编码序列被非编码序列所分隔。基因的大小以及内含子的数目和长短在不同的基因相差悬殊。在人类基因组中,也有少数的结构基因无内含子的序列,如位于Y染色体上的SRY基因等,其编码序列呈连续状态,无内含子。真核生物基因结构中的第一个外显子和最后一个外显子的外侧存在的非编码区,称为侧翼序列。

真核生物的基因由编码区和非编码区两部分组成。原核生物的基因绝大多数是连续编码的DNA分子片段。真核生物其编码序列是不连续的,一些具有编码功能的DNA序列被一些非编码DNA序列隔开,形成镶嵌排列的断裂形式,称为断裂基因(图2-6)。

(一)编码区

真核生物断裂基因中,编码序列被非编码序列所分隔。其中具有编码功能的DNA序列,称为外显子(exon,E)。它是基因中可表达为多肽的部分。两个外显子之间的非编码DNA序列,称为内含子(intron,I)。基因的大小以及内含子的数目和长短在不同的基因相差悬殊。例如,人的血红蛋白β-珠蛋白链基因含有3个外显子,2个内含子,长约1 700bp(碱基对)。人的假肥大性进行性肌营养不良基因含有75个外显子和74个内含子,全长2 300kb。结构基因在转录时,内含子也被转录,但在初级加工时被切除,外显子相连,再经过一系列的加工,才能成为有生物活性的成熟的m RNA。

图2-6 真核生物基因的结构

真核生物断裂基因的外显子和内含子的接头区是高度保守的一致序列,称为外显子-内含子接头,即在每个内含子的5′端开始的两个核苷酸为GT,3′端末尾的两个核苷酸为AG,这种接头方式称为“GT-AG法则”。这两组碱基是真核细胞基因中普遍存在的,这种特殊的碱基序列是不均一核RNA(heterogenous nuclear RNA,hn RNA)剪切加工成为成熟的m RNA的信号。

在基因中,DNA的5′→3′称为编码链,而3′→5′链称为反编码链。

在人类基因组中,也有少数的结构基因无内含子的序列,如位于Y染色体上的SRY基因等,其编码序列呈连续状态,无内含子。同时,真核生物断裂基因中的内含子和外显子的关系并不是固定不变的,有时,同一条DNA链上的某一段DNA序列,当它作为编码一条多肽链的基因时是内含子,而作为编码另一条多肽链的基因时是外显子,结果是同一基因的DNA序列可以转录为两种或两种以上的mRNA。

(二)非编码区

真核生物基因结构中的第一个外显子和最后一个外显子的外侧存在的非编码区,称为侧翼序列(flanking sequence)。在侧翼序列中有一些对基因表达具有调控作用的DNA序列,称为调控序列(regulator sequence)。调控序列不被转录,但对基因的有效转录具有调控作用,又称为顺式作用元件,它包括启动子、增强子、终止子等。

1.启动子 启动子(promoter)是指与转录启动有关的特异序列,位于基因转录起始点上游的100~200bp的一段特异的核苷酸序列,是RNA聚合酶的结合部位,能促进转录过程。目前已发现3种启动序列:①TATA框(TATA box),该序列位于转录起始点上游-27~-19bp处,由TATA/TAA/T 7个碱基组成。②CAAT框(CAAT box),该序列位于基因转录起始点上游-80~-70bp的一段特异的核苷酸序列,由GGC/TCAATCT 9个碱基组成。③GC框(GC box),该序列位于CAAT框的两侧,由GGCGGG 6个碱基组成,起增强转录效率的作用。

并非所有真核生物的启动子都同时含有上述3种结构框序列。

2.增强子 增强子(enhancer)是一段能增强启动子转录效率的特定序列。通常存在于启动子上游或下游3kb或更远处的一段核苷酸序列,本身不具有启动子活性,但它可以增强启动子的转录能力,提高基因的转录效率。不同基因的增强子碱基序列差异较大。增强子的位置比较灵活,它可以位于转录起始点的上游,也可位于转录起始点的下游。

3.终止子 终止子(terminator)是一段具有终止功能的特定DNA序列,位于基因3′非编码区下游的一段反向重复的碱基序列,是一段5′-AATAAA-3′组成的回文序列,为转录终止信号。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈