生物学家们在很长一段时间里都认为,既然几乎所有具体的生理机能都要由蛋白质来完成,那么不编码蛋白质的DNA应该是没有用的,可以称为“垃圾DNA”。
到今年,DNA双螺旋结构向人类展现其本来面目已有52年了。似乎人类已经绘出包括自身在内的许多物种的基因组图谱。但最新一期《科学世界》杂志却撰文指出,平日充斥于学术论文和新闻媒体的“基因”只是生命之书中一些极小的段落。基因组绝大部分区域仍然潜藏在暗影中,长久以来被人们当成“垃圾”而忽视,只在近年来才露出几缕光芒,显示这个巨大的“垃圾场”可能蕴藏着与其体积相称的宝藏。
以垃圾的名义
人类基因组草图绘制完成后,23对染色体、30亿个碱基对这样的常识也开始为非专业人士所熟知,人类对自身遗传图谱的认识得到了很大的补充与修正。大概在2000年时,科学家还估计人类基因组中约有10万个基因,但不出5年这一数字已跌到2万个至4万个,目前一种比较通行的说法是约2.5万个。这些基因所包含的DNA序列,大概只有人类基因组序列总长的2%左右。也就是说,人类生命蓝图中约有98%的信息似乎不属于什么基因,是无用的垃圾。然而,什么是基因垃圾呢?
地球上绝大多数生命以DNA为遗传物质,另有一些病毒使用RNA,没有别的方案——为什么是这样,科学家并不知道。他们急于寻找外星生命,哪怕只是细菌也好,一个重要原因就是想看看地球生命使用DNA是偶然还是必然。DNA由4种碱基也就是4种“字母”组成,分别称为A、T、C、G。在RNA中,字母T被换成了U。整个DNA双螺旋就像一条极长的、扭曲的梯子,梯子的两边各是一条由许多字母逐个连接而成的带子,每个字母与对面带子上相应位置的字母结合在一起成为一个梯级,称为“碱基对”。其中,只能A、T相互结合以及C、G相互结合,所以知道了DNA双链中一条的碱基顺序,另一条也就确定了,这两条链是互补的。
生物的遗传信息,就是DNA链上这些字母的排列方式。将蓝图转化为实际产品的过程,就是一段DNA根据其碱基序列合成出对应的RNA序列(转录),然后RNA序列信息指导氨基酸拼合形成蛋白质(翻译)的过程。生物体的生理机能,基本上都由蛋白质来完成,比如在血液中运送氧气、进行新陈代谢等等。可以说,DNA发出命令、RNA挥动鞭子,而蛋白质则是卖苦力的牛马。从DNA到RNA再到蛋白质的这个过程,就是生物学的“中心法则”。
能够最终形成蛋白质或者说“编码某种蛋白质”的这样一段DNA,就是我们传统意义上所说的“基因”。在人和其他生物体内,这样的基因都只占整个基因组的很小一部分,它们就像宝石一样零星地落在黑沉沉的荒野中。各基因之间是大片大片不能制造蛋白质的DNA序列,即“非编码序列”。生物学家们在很长一段时间里都认为,既然几乎所有具体的生理机能都要由蛋白质来完成,那么不编码蛋白质的DNA应该是没有用的,可以称为“垃圾DNA”。
基因的墓场
一集50分钟的电视剧被拆成好几节来播放,中途插入的广告总共算起来有半小时以上,是否已经让你忍无可忍?那么,假如给2分钟的正经节目配上98分钟的广告,你会有什么感觉?是的,太过分了!生命为何要如此浪费?除了性细胞,人体每个细胞里都有一整套DNA,每套DNA只有约2%的内容有用。在其他哺乳动物体内,比例也大抵如此。有些物种的基因组更加“精练”、垃圾更少,比如鸡的基因组大小只有人类的1/3、河豚则为人类的1/10,但它们的基因数量却与人类差不多。也有的更夸张,如洋葱的基因组有人类基因组的12倍那么大、阿米巴变形虫的基因组更是比人的基因组大200多倍。
人们对垃圾DNA的来源提出了多种解释,比如有一部分垃圾来自病毒。逆转录病毒是一类以RNA为遗传物质的病毒,其中我们最熟悉的是艾滋病病毒。它们侵袭宿主细胞时,会把自身的RNA转换成DNA插入基因组中,并跳来跳去大量复制。从DNA到RNA的过程叫转录,反过来就叫逆转录,这也是这类病毒的名称由来。逆转录病毒有的会致病、引起艾滋病或癌症等,也有的没有什么影响。在进化历程中,有许多逆转录病毒DNA留在了人类基因组里而成为垃圾。
还有一些垃圾DNA可能是死亡基因的遗骸,被称为“假基因”。科学家认为,它们原本是编码蛋白质的真基因,由于发生变异而失去功能被弃之不用。它们的序列与真基因非常相似,但有着细微差别,正是这些差别使假基因不能编码蛋白质。去掉假基因不会影响有机体的功能,偶尔某个假基因发生变化、死而复生倒可能造成麻烦。由于假基因的存在不增加或减少生物的生存优势,所以进化过程很难把它们从基因组里清除出去,就好像把东西扔到了垃圾桶里却没有人把垃圾桶拿出去清倒,结果在屋子里越积越多一样。假基因在生物基因组中大量存在,人体内就有约2万个,几乎与真基因的数量相当。
有证据显示,至少一部分垃圾DNA很像真正的垃圾,因为动物失去它们之后依然生活得很好。2004年10月,一组美国科学家在《自然》杂志上发表报告说,他们删除了小鼠基因组中超过100万个碱基对的非编码DNA(约占鼠基因组的1%),但并没有对这些小鼠的发育、寿命和繁殖造成可察觉的影响。在100多项评估基因活性的组织测试中,只有两项发现了差异。他们还培育出失去300万个碱基对的非编码DNA小鼠,也没有发现明显异常。
“基因”定义要重写
然而,这并不是全部。在过去几年中,分子生物学家们已经越来越感觉到,“垃圾DNA”的命名过于草率了,连“基因”的定义也需要重写。编码蛋白质并不是DNA的全部意义,那些非编码区域也许有一部分像上面的试验所显示的那样没有明显功能,但更多的部分我们还不了解,不能先入为主地将它们扔进垃圾堆。实际上,那一大堆“垃圾”里已经长出了一些让科学家眼花缭乱的东西,而这还只是冰山之一角。
比如,理论上完全无用的假基因并不是那么“假”,2003年,一个日本研究小组发现了第一个有功能的假基因。科学家培育出一种转基因小鼠,它们带有一个名叫“性别致死”的基因。这个名字可怕的外来基因在大多数小鼠身上并没有造成什么负面影响,惟独在某一个品系中名副其实,所有的小鼠在幼年时就死了。研究显示,在这个品系的小鼠中,外来基因偶然地插入了一个叫makorin1—p1的假基因中间,把它破坏掉了。这个假基因是makorin1基因的变异版本,比“正本”要短很多,不编码蛋白质,按传统理论应该没有用处。然而事实是,当它损坏后,对应的真基因也不工作了。
那么,至少这个例子说明,不编码蛋白质的基因也对生存至关重要,没有什么假不假的,只是工作方式与传统基因不同。但最新研究显示,一些RNA可以与其他的RNA、DNA、蛋白质甚至小分子化学物质发生作用,直接影响生理机能——也就是说,不是作为挥动鞭子的角色,而是直接去当苦力。垃圾DNA中某些不编码蛋白质的片断,例如上述试验里的假基因,可能通过转录成RNA来发挥作用。这些片断不是传统意义上的基因,可称为“RNA基因”,它们往往非常短小、难于识别,但又非常重要。它们调控其他基因的表达,使这些基因开启、关闭、更活跃或更不活跃。
垃圾DNA不是真正垃圾
还有一些非编码DNA,即使我们完全不了解它的功用,也可以断定它们并不是垃圾,必定有着重要功能,“高度保留共同序列”就属于这一种。2004年,一组美国科学家在《科学》杂志上发表报告说,他们对比研究了人、大鼠、小鼠、鸡、狗、鱼等多个物种的基因组,发现其中存在一些极其相似乃至完全相同的DNA序列。这些序列位于非编码区域中,共有480个,在人、大鼠和小鼠身上完全相同,与狗、鸡、鱼对应序列的相似度也远远超过各物种基因组的平均相似度。不过,在海鞘和果蝇体内却找不到这些序列。人们并不知道这些高度保留序列有什么作用,它们在人和鼠身上的版本完全相同,意味着人和鼠的祖先分家之后的7500万年间,这些序列没有发生任何改变,这是极其不可思议的。
为了防止偶然因素,研究者检查的序列长度都超过了200个碱基对。从统计学上来说,这么长的序列因为独立的偶然变异而重复出现3次基本上是不可能的。有480个这样的序列重复出现3次,就更不可能了。有不少人根本就怀疑这个试验出了问题,认为人类的DNA污染了鼠的DNA样本。此外,这些序列在人与鱼身上的版本差异很小,即在人和鱼祖先分家后的4亿年里改变甚微。这表明它们的稳定性对脊椎动物至关重要,微小的差异都可能造成致命后果。
科学家猜测,有些高度保留序列可能影响着重要基因的活动,还有一些则控制着胚胎发育。这些序列彼此差异很大,从中看不出与其功能有关的线索。科学家正考虑培养出缺少某一高度保留序列的转基因小鼠,观察其生长发育有何异样,由此判断该序列的作用。这一发现再次证明,不编码蛋白质、在传统上被认为是垃圾的DNA,绝对不是真正的垃圾。
人们曾经猜想,越复杂的生物基因数量越多,但事实已经推翻了这种观点。如前所述,人类基因数量与鸡和河豚的基因数量相近,而水稻的基因差不多要比人多一倍,阿米巴和洋葱则证明了基因组的总体大小与生物复杂性也全无关系。到底是什么决定了物种之间的根本差异?看来必须把传统的基因与新近被证明是宝藏的“垃圾”结合起来考虑。
天文学家一度认为,那些在电磁波谱的各频段闪耀光芒的星星和尘埃就是这宇宙里的一切。然而,越来越多的证据使他们认识到,宇宙中还有人类所看不见的暗物质和暗能量,而且事实上它们占去了宇宙质量的绝大部分,我们所熟悉的物质只有百分之几。宇宙的终极命运——是永远膨胀还是坍缩成为一个奇点?它更多地取决于这些暗影中的神秘质量。对暗物质和暗能量的研究是近年来宇宙学的重大进展,也是一项重大挑战,因为科学家至今也没能对它们的本质给出合理解释。垃圾DNA可以说是基因组的暗面,它将改变生物学的面貌,就像暗物质和暗能量改变宇宙学的面貌那样。