第二节 基因的结构

基因作为由一段DNA序列组成的功能单元,在大多数情况下都会生成相应的蛋白质,进而决定或影响生物体的表型。这一段DNA序列,不仅包含了编码蛋白质的序列信息,还包含了参与调控由DNA到RNA到蛋白质整个过程的元件和信息。对于不产生蛋白质的非编码基因,也包含类似的DNA序列信息和调控机制。图1-1(见彩图)显示了真核生物中常见的基因的结构和组成。

图1-1 基因的结构

一、外显子和内含子

根据“中心法则”,DNA首先被转录为信使RNA(messenger RNA,mRNA),然后 mRNA 被翻译为蛋白质。当基因发生转录时,DNA首先会被转录为信使RNA前体(pre-mRNA),然后premRNA中的一部分序列通过RNA剪切(RNA splicing)的过程被去掉,剩下的序列则被连接在一起最后形成成熟mRNA(mature mRNA)。被保留在成熟mRNA中的序列对应的DNA序列被称为外显子(exon),而被RNA剪切过程去掉的序列所对应的DNA序列叫内含子(intron)。蛋白质编码DNA序列被非编码的内含子序列隔开形成不连续的外显子这种现象最初在病毒中被发现,后来被证实在所有真核生物基因组中都存在内含子,而原核生物的基因中则不存在或仅有很少的内含子结构。

对于编码蛋白的基因,外显子序列除了包含编码蛋白信息的编码序列(coding sequence,CDS),还包含了非编码序列(noncoding sequence)。编码序列依照遗传密码的规则,每三个碱基一组对应一个氨基酸,或是终止密码子作为停止蛋白质合成的信号。因此编码序列的长度是3的整数倍,两端分别是起始密码子和终止密码子,蛋白质的翻译过程则从起始密码子开始依次进行,直到终止密码子而停止,形成一条完整的肽链,最后肽链经过折叠、剪切或修饰而成为具有完整功能的蛋白质。

在成熟mRNA中,紧邻起始密码子的上游和终止密码子的下游的序列通常不会翻译合成为肽链,因此也称为非翻译区(untranslated region,UTR)。起始密码子上游的非翻译序列称为5'端非翻译区(5'UTR),也叫前导序列(leader),而终止密码子的下游的非翻译区称为3'端非翻译区(3'UTR),也叫尾随序列(trailer)。虽然非翻译区不包含编码蛋白质翻译的信息,但是包含了调控蛋白质翻译的重要元件。在5'UTR中,有一段序列可以被核糖体识别并结合,从而启动蛋白质的翻译。而3'UTR则在蛋白质翻译终止过程中起到关键作用,并且参与调控转录后修饰的过程。由于外显子序列的重要性,所以在进化上,外显子序列(包括编码序列和非编码序列)通常都高度保守。

虽然内含子序列在形成成熟mRNA的过程中被切除,但是内含子序列也在RNA剪切和基因转录的调控中起到重要的作用。首先,RNA剪切发生的位置,也就是外显子和内含子边界,主要由紧邻边界的内含子一侧两个碱基决定。在真核生物中,靠近5'UTR端或是包含在5'UTR内的内含子通常比其他内含子长,一个可能的解释是这些靠近5'UTR的内含子包含了更多调控基因转录的序列,已经有很多证据支持这个假说。在内含子中也存在其他调控基因转录的DNA元件,包括增强子(enhancer)、沉默子(silencer)和调控上游启动子的序列。而位于3'UTR的内含子中存在可以调控转录终止的序列。如人β-珠蛋白基因(HBB)的第二个也是最后一个内含子,移除这个内含子或置换成其他内含子,会显著地降低RNA转录的3'末端的形成。内含子中还包含了影响RNA核转运及RNA稳定性的序列元件。最近的研究表明,真核生物的内含子序列可以降低由转录引起的遗传不稳定性。此外,有些基因位于其他基因的内含子或UTR内,称为巢式基因(nested gene)。巢式基因在人类基因组中比较常见,目前已知有功能的巢式基因有158个,以及超过200个假基因。

除了已知的这些功能序列或元件之外,内含子中还有大量的序列的功能还不明确。与外显子相比较,不同物种之间的内含子序列相似度比较低,内含子序列在进化上显示出较低的保守性。自从内含子被发现以来,内含子为何存在这个问题一直存在很大争论。一种流行的理论认为,内含子是一种“自私元件”,即这些序列并不影响生物个体的生存优势,仅是为了让自身可以复制传递下去。最近的研究表明,真核生物基因的这种外显子-内含子的不连续序列结构,与蛋白质的功能域有显著的重合,因此这种序列结构通过增加蛋白质编码序列的重排,加速了蛋白质的进化。此外,内含子可以帮助酵母在营养不足的环境下更好地生存。而在进化上,内含子是何时以及如何出现的,也是一个悬而未解的问题。一种被广泛接受的假说是,内含子起源于真核生物进化早期的线粒体,因为线粒体被认为是来源于被吞噬的古细菌,而古细菌中存在一些类似于内含子的序列。在某个时间,这些内含子序列被整合到了宿主基因组,并通过扩增和重组扩散到整个基因组中。最近的研究表明,在蓝藻中DNA转座子(transposon)产生了成百上千内含子,而这可能是真核生物内含子进化中一种通用的机制。

二、启动子和终止子

当基因DNA序列首先被转录成mRNA前体时,RNA转录酶从转录起始位点(transcriptional start site,TSS)开始转录,通常这个位置对应第一个外显子的5'端。转录的过程主要是通过启动子(promoter)来调控。调控转录起始的核心启动子元件,一般分布在TSS的上游和下游各40bp范围之内。真核生物核心启动子元件之一是TATA框(TATA box),也称为 Goldberg-Hogness box,是一段高度保守的DNA共有序列(5'-TATAWAW-3',W代表A或T)。在原核生物中,与TATA box对应的共有序列稍短(5'-TATAAT-3'),也被称为 Pribnow box。TATA box可以与TATA结合蛋白(TATA box binding protein,TBP)结合,然后通过与RNA聚合酶及其他转录因子结合形成转录必需的起始前复合体(preinitiation complex,PIC)。核心启动子的另一个重要组成序列是起始子(initiator,Inr),这段序列与转录起始位点重合。在缺乏TATA box的启动子中,起始子通常与位于TSS下游的下游启动 子 元 件(downstream promoter element,DPE)共存。除了这三种在启动子中最常见的基序(motif),人类基因启动子中还存在一种称为下游核心元件(downstream core element)的基序。这些元件会分别与不同的转录因子结合,最终形成有功能的PIC。此外,还有一些基因的启动子并不包含TATA box序列,但是这些启动子启动转录也需要TBP的参与。

终止子(terminator)是位于最后一个外显子3'端的一段DNA序列。这段序列标记了转录结束的位置,从DNA模板新合成的mRNA包含了这段序列带有的信号,让RNA聚合酶从转录复合体中释放出来,从而让转录结束。

三、其他调控元件

在基因的转录过程中,除了核心启动子之外,还有其他DNA序列或元件参与整个过程的调控。增强子(enhancer)是长度 500~1500bp的DNA序列,可以位于启动子上游或下游,包括内含子区域。增强子距离启动子的距离从数kb到数Mb,可极大地提高相应启动子的基因转录活性。通常一个启动子可以受到一个或多个增强子的调节,而这种基因转录的调节可以有空间特异性或时间特异性,即增强子可以调控基因在不同的组织或细胞类型中在特定的时间发生转录。增强子中含有特异的DNA序列,能与转录调控因子(特别是转录激活因子transcriptional activator)结合。结合了转录因子的增强子通过形成DNA环形结构,将这些转录调控因子带至目标启动子附近与PIC一起调节转录。增强子是一种顺式作用元件(cis acting element),即增强子只能调节位于同一条DNA分子上的启动子。沉默子(silencer)是与增强子特征非常相似的一种调控元件,也包含一些特异的DNA序列,这些序列可以直接或间接地结合转录抑制因子(transcriptional repressor),从而抑制基因的转录。