第一章 基因与基因变异

第一节 基因的概念

1909年,丹麦科学家威廉·约翰逊(Wilhelm Johannsen)首次使用了“gene(基因)”这个词,用来代表遗传因子。在之后的半个多世纪里,最初基因被认为是位于染色体上的某种因子,后来又被认为是染色体上一个线性的区段,最后被定义为一段编码了多肽链的线性DNA分子。100多年来,随着遗传学和分子生物学不断发展带来新的发现和认识,基因的概念也在不断地演进。

一、早期对基因的认识

早在“基因”这个词出现之前,格雷戈尔·孟德尔(Gregor Johann Mendel)在1866年通过著名的豌豆杂交实验,已经明确地证明了存在一种可以遗传的因子,可以从亲代传递给子代,并决定子代的性状。孟德尔的实验被总结为两条定律:孟德尔第一定律和第二定律。孟德尔第一定律又被称为分离定律,其要点是生物的某一特定性状由一对某种可遗传的因子决定。当亲代产生配子时,这种因子会被随机分配到配子中,而带有不同因子的配子随机组合而决定子代的性状。孟德尔第二定律又被称为自由组合定律,即不同的性状由不同的可遗传因子决定,而不同的因子在形成配子的过程中的分配和组合是独立的,互不干扰。孟德尔的发现在当时并未受到科学界的重视,直到30多年后,三个来自不同国家的科学家成功地重复了孟德尔的实验,才让这些发现获得广泛的认可。虽然孟德尔当时并不知道决定生物性状的遗传因子是什么物质,但实验清楚地展示了作为遗传因子的四种关键特点:可传递、可变异、可重组、决定表型(性状)。

就在孟德尔的工作重新被发现后不久,美国科学家沃尔特·萨顿(Walter S.Sutton)和德国科学家西奥多·勃法瑞(Theodore H.Boveri)在1903年几乎同时提出了染色体遗传理论,认为配对的遗传因子存在于染色体上。勃法瑞通过研究海胆,发现正常的胚胎发育需要所有的染色体。而萨顿则用蝗虫作为研究对象,发现染色体由来自母源和父源的染色体成对形成,在减数分裂中会分开,因而明确提出染色体可能是孟德尔遗传定律的实质基础。此后,托马斯·摩尔根(Thomas Morgan)和他的学生们通过对果蝇的研究,进一步扩展并证实了萨顿和勃法瑞提出的染色体遗传理论。1911年,摩尔根观察到果蝇的眼睛颜色跟性别高度关联,从而提出决定果蝇眼睛颜色的基因在X染色体上的假说。摩尔根和学生们通过一系列的实验,提供了更多的证据支持染色体遗传理论。1915年,摩尔根与学生阿弗雷德·斯特蒂文特(Alfred H.Sturtevant)、赫尔曼·穆勒(Hermann J.Muller)和凯文·布里吉斯(Calvin B.Bridges)发表了奠基性的著作《孟德尔遗传的机理》(The Mechanism of Mendelian Heredity),建立了遗传学的第三定律——连锁遗传定律。摩尔根通过大量遗传连锁实验的证据,提出了基因在染色体上线性排列的假说,并且穆勒进一步证实了基因在遗传连锁图谱上的排列顺序跟它们在染色体上的排列顺序是一致的。

随着三大遗传定律的建立,基因作为遗传的“原子”得到了广泛的认可,但是,由于当时技术和认识的限制,基因如何影响表型和基因的实质还不明确。1941年,美国遗传学家乔治·比德尔(George W.Beadle)和爱德华·塔图姆(Edward L.Tatum)通过对链孢菌的研究,发现通过X射线诱导的某些变异可以改变孢子的生化代谢,提示这些变异造成了生化代谢通路中必要的某种酶功能异常,因此提出了“一个基因一个酶”的假说。此后的研究发现这个假说还有局限性。查尔斯·亚诺夫斯基(Charles Yanofsky)发现色氨酸合成酶由两条多肽链组成,分别由两个基因产生。因此,“一个基因一个酶”的假说被修正为“一个基因一个多肽链”。

对于基因是由什么物质构成的,则一直等到对DNA进行了深入研究之后才逐渐确立起来。虽然1869年弗雷德里希·米歇尔(Friedrich Miescher)就发现了DNA,但是科学家们一直认为蛋白质才是遗传信息的载体。证明DNA是遗传物质的研究最早始于著名的格里菲斯肺炎球菌实验。英国科学家弗雷德里克·格里菲斯(Frederick Griffith)于1928年报道了肺炎球菌的转化实验。他发现两种肺炎链球菌菌株,一种可以形成边缘光滑的菌落(S型菌株),另一种形成的菌落边缘粗糙(R型菌株)。给老鼠注射S型菌株可以让老鼠患病死亡,而R型菌株不能。加热灭活的S型菌株不能让老鼠致病,但是将灭活的S型菌株与未灭活的R型菌株混合之后注射老鼠,则可以让老鼠患病死亡。这种转化的现象说明存在一种在加热条件下稳定的物质携带了遗传信息,并可以传递给活菌而且产生正常的功能。1944年,奥斯瓦尔德·埃弗里(Oswald Avery)、科林·麦克劳德(Colin MacLeod)和麦克林恩·麦卡蒂(Maclyn McCarty)从S型菌株中分离出高纯度的物质,能将不致病的R型菌株转化为致病菌株,并证实了这种物质是DNA。1952年,阿弗雷德·赫希(Alfred Hershey)和玛莎·蔡斯(Martha Chase)通过噬菌体复制实验,进一步证明了遗传信息的载体是DNA而不是蛋白质。他们用硫(35S)和磷(32P)放射性核素分别标记噬菌体的外壳蛋白和DNA,然后用标记的噬菌体分别感染细菌,结果发现只有DNA进入了细菌并生成新的子代噬菌体。

俄国生物化学家菲巴斯·利文(Phoebus Levene)首先为DNA结构的发现奠定了基础。利文用水解酵母DNA的方法,发现DNA的基本单元核苷酸(nucleotide)主要有三种成分:磷酸根(phosphate)、糖(sugar)和碱基(base)。利文还提出了“多聚核苷酸(polynucleotide)”的DNA模型,认为DNA是由四种核苷酸按固定次序连接起来的。受到埃弗里和利文的研究工作的启发,奥地利生物化学家埃尔文·查戈夫(Erwin Chargaff)决定对DNA的化学成分进行深入研究。查戈夫发现不同生物的DNA中四种核苷酸碱基腺嘌呤(adenine,A)、鸟嘌呤(guanine,G)、胞嘧啶(cytosine,C)、胸腺嘧啶(thymine,T)组成比例是不同的,但是腺嘌呤和胸腺嘧啶的量总是几乎一样,鸟嘌呤和胞嘧啶的比例也如此。在这些研究以及英国科学家罗莎琳德·富兰克林(Rosalind Franklin)和莫里斯·威尔金斯(Maurice Wilkins)用X射线衍射法对DNA晶体的研究基础上,詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)于1953年提出了DNA双螺旋结构模型。这个模型中,DNA由两条反向平行的多聚核苷酸链互补缠绕形成右手螺旋结构,通过碱基之间的氢键结合在一起,其中碱基A总是与T配对,而G总是与C配对。这个结构很好地解释了DNA作为遗传物质的自我复制、特异性和信息编码的特性。此后,克里克提出了遗传序列信息从DNA传递到蛋白质的“中心法则”,即遗传信息可以从核酸传递到核酸,或从核酸传递到蛋白质,但是不能从蛋白质传递到核酸或从蛋白质传递到蛋白质。现在常见的表述是DNA可以生成RNA,RNA再生成蛋白质。

DNA双螺旋结构的发现不仅是科学史上的一个重要里程碑,也开启了现代分子生物学的大门。此后,围绕对DNA的研究出现了很多新技术,而这些新技术也极大地促进和加深了对基因的结构、调控和功能,以及对整个基因组的认识。

二、现代分子遗传学的基因的概念

自1970年开始,一系列关于DNA和基因的发现证明过去对基因的定义并不准确。首先是多重启动子的发现,表明一个基因可以从不同的启动子开始转录生成不同的转录本(transcript),因而产生不同的蛋白产物。而RNA剪切(splicing)和选择性剪切(alternative splicing)的发现,进一步证明了一个基因的DNA序列可以产生多个不同的产物。这些发现打破了以前提出的“基因-mRNA-多肽链”的一对一的对应关系。此外,在人类基因组中有一些基因位于另一个基因的内部,这与基因在染色体上相邻排列的假说也是不一致的。非编码基因(noncoding gene)的发现,则说明基因的最终产物不一定是蛋白质。根据现有的分子生物学和分子遗传学的认识,基因可以被定义为一段连续或不连续的DNA序列,它包含了可以生成一个或多个蛋白质或RNA的信息,而来自这一段DNA序列的产物(蛋白质或RNA)可以决定或影响生物体的表型。