宋雅·普若哈斯卡是德国莱比锡大学的一名生物信息学家。她每天的大部分时间都花在了收集、整理和分析有关基因的信息上。她的工作一刻也离不开基因,因此,她戏称自己被基因“绑架”了。2008年夏天,普若哈斯卡决定要尝试度过一个每天不用再将“基因”时刻挂在嘴边的暑期。但是,令普若哈斯卡失望的是,这样的尝试根本无法实现,因为关于DNA的新一轮大规模研究引发了她和她的同事对基因本来性质的重新思考。
DNA双螺旋结构
百岁寿辰闹危机
研究人员不再将典型的基因视为对单个蛋白进行编码的DNA片段。因为,对于基因的传统规则来说,存在着太多的例外。研究人员发现,事实上,一些不同的蛋白质也许是由单一的DNA片段产生的。DNA所产生的绝大多数分子甚至也许都不是蛋白质,而是另一种称为RNA的化学物质。人们熟知的DNA双螺旋结构不再为遗传所独享。吸附在DNA上的其他分子能在具有相同基因的两种有机物间产生显著的差异,而且这些分子也能和DNA一起被继承。
换句话说,基因出现了身份危机。
这场危机发生在基因一词诞生100周年的前夕。基因一词是由1909年丹麦遗传学家威尔海姆·约翰森命名的,用来描述父母给下一代传递了什么才使得它们发展出相同的性状。像他那个时代的其他生物学家一样,约翰森并不了解这个无形的因子是什么东西。
在接下来的60年里,科学家们将基因这个词从抽象的概念变为了具体的现实。他们对面包霉菌和细菌,以及果蝇和玉米展开了实验研究。他们发现了如何通过修饰细胞内的分子来改变花、眼睛及其他性状。他们还指出了DNA是一对相互缠绕的链。到上世纪60年代,他们已经对基因作出了令人信服的定义。
他们认为,基因是一个含有制造蛋白质分子指令的特定DNA片段。为了从基因制造蛋白质,细胞不得不读取它,并建立一个单链副本———RNA外转录。接着,这个RNA就会被一簇用于建立蛋白质模板的核糖体分子抓住。
基因也是遗传的基本单位。每次细胞分裂时,它都会复制其基因,然后父母将这些基因中的一些传递给他们的后代。如果你从母亲那里继承了一头红发,或是罹患乳腺癌的潜因,那么你就有可能继承了一个有助于形成这些性状的基因。
基因的这种定义一直运行得相当好。1968年,分子生物学家冈瑟·斯坦特宣称,下一代科学家的工作将是必须找出其中的细节。
越来越多的怪异基因
斯坦特和他同时代的科学家都非常清楚地知道,这其中的某些细节是非常重要的。他们知道,在蛋白质固定到其附近的DNA位时,基因可被关闭或开启。他们还了解到,一些编码RNA分子的基因从来不会变成蛋白质。相反,他们有其他的任务,如帮助建立核糖体内的蛋白质。
但是,这些例外似乎显得并不重要,还不足以引起科学家对基因的定义提出疑问。耶鲁大学的生物信息学家马克·格斯坦说:“生物学的工作方式迥异于数学。如果你在数学找到一个反例,你就必须回过头去重新思考定义。生物学并不如此,当出现一、两个反例时,人们更愿意对其进行处理。”
20世纪80年代和90年代,科学家们发现了越来越多的反例,当一个细胞产生一个RNA转录时,它会把巨大的DNA块切断,只留存一些小残余。(细胞复制的DNA部分称为外显子,被抛在一边的部分称为内含子。)大量非编码的DNA片段存在于这些蛋白质编码区域。人类基因组中的2.1万个蛋白质编码基因只占了整个基因组的1.2%%。
2000年,一个国际科学家小组完成了首个基因组———人体细胞中的所有遗传物质的草图。他们确定了许多蛋白质编码基因的位置,但是人类基因组中98.8%%的其他基因仍有待探索。
从那时起,科学家们开始在基因组的丛林中不断跋涉,一点一点地描绘着基因组的精妙细节。其中最大的一个项目就是“DNA元件的百科全书”,简称为Encode。数以百计的科学家开始协同作战,以确定人类基因组中每一个DNA片段的功能。去年夏天,他们发表了1%%基因组的成果———大约300万个DNA“字符”。遗传代码是以字符形式表示的,就像电影标题“Gattaca”(千钧一发)中的每一个字母都代表着一种称为碱基的分子:G(鸟嘌呤),A(腺嘌呤),T(胸腺嘧啶),C(胞嘧啶)。Encode小组预计到明年就可以得出其他99%%基因组的初步结果。
Encode的研究结果显示,至少从传统的基因定义标准看,基因组中充斥着各种怪异的基因。例如,一个单个的所谓基因可以产生一个以上的蛋白质。在一个称为选择性剪接的过程中,一个细胞可以选择不同的外显子组合制作出不同的副本。大约在30年前,科学家就首次发现了选择性剪接的例子,但他们无法确定这种情况到底有多普遍。现在一些研究表明,几乎所有的基因都被剪接。Encode小组估计,蛋白质编码区域平均能产生5.7个不同的副本。不同种类的细胞似乎能从同一基因产生不同的副本。
更为怪异的是,细胞常常将外显子“扔进”来自其他基因的副本中。这些外显子可能来自“遥远的地方”,甚至来自不同的染色体。