垃圾DNA:生物信息学的应用
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
基因组极其复杂
原核生物(如大肠杆菌)基因组的DNA序列约88%编码蛋白质,约1%编码稳定RNA,但高等生物的情况完全不同。随着人类基因组测序的完成,已经知道编码蛋白质的外显子仅占基因组的1%,内含子占24%,基因间的DNA序列占22%,重复序列占53%;重复序列中可移动重复序列(转座子)占45%,简单重复序列占3%,大重复片段占5%。在99%的非编码序列中,内含子被认为只是大自然为加速基因进化而引进的一种把戏,是插在基因中外显子间的噪声;基因间序列中只有很少部分被确认为与基因表达调控有关,剩下绝大部分也是无功能的废物或垃圾(junk)。大量重复序列被认为来源于“自私的”基因的高复制能力,完全是中性进化中产生的“junk”。为什么高等生物的遗传物质中有高达90%以上的“垃圾”?对比低等生物,这个矛盾显得更加尖锐。
1950年代末1960年代初开始阐明低等生物的基因结构时,乍一看情况井井有条,但随着研究工作的深入,发现基因组结构具有愈来愈高的复杂性,这些复杂性很多来自于中性突变,以及基因为获得生存所作的努力。高等生物的基因组90%以上都是非编码序列,是中性或近中性进化中产生的“垃圾”。近两三年,科学界对垃圾DNA的讨论日益增多,各种观点层出不穷,人们开始重新审视这些“垃圾”,发现它们并非垃圾,而是宝物。
例证之一,可移动重复序列具有整合到基因组新位点的能力,特别是其中的逆转录转座子,它们在基因组中的数量随进化而增加,在低等真核生物中只有3%以下,而在哺乳动物中几乎占一半。其中一个叫做L1序列的转座子,大约每50个人基因组中就有一个新的L1序列插入,它具有修复双链DNA的功能,可帮助它前后的基因移动并插入到基因组其他位置,可通过它包含的反义启动子改变基因的表达,还能变成编码蛋白质的基因序列的一部分(L1存在于200 ~ 2 400个编码蛋白质的基因中)。Alu序列是另一个逆转录转座子,其300碱基对的重复单元以140万份拷贝散乱地分布在人类基因组中,它们大约是在4 000万年前大批进入基因组的,至少有20种人类遗传病与Alu序列的插入有关。最近发现Alu序列的外显子化可导致可变剪接,编码更多种类的蛋白质。这些都说明重复序列尽管是在中性进化中产生的,但后来还可能获得功能。功能本来就是一个动态的概念,那些在进化过程中被保留下来的重复序列很可能与后来获得的功能有关。脊椎动物基因组的快速进化动用了可移动重复序列,这些移动元素变成了基因进化的推动者。
例证之二,人类基因组中有很多保守的非基因序列,它们在从鸭嘴兽到人的十余种哺乳动物中高度保守,比编码蛋白质的基因序列和非编码的RNA序列更保守,并具有不同于后两者的独立的信息学特征,且数量之多惊人,估计人类基因组中有6万个,几乎是编码蛋白质基因数的2倍。在5′端和3′端非翻译区,特别是5′端非翻译区中,普遍存在着这类保守的非基因序列。尽管它们的功能还不清楚,但从此类序列的物种保守性可以估计它们编码了某些功能元素。
例证之三,非编码RNA中RNA干涉和微RNA在2001和2002年连续被评为十大科技新闻之首。微RNA(miRNA)和小干涉RNA(siRNA)性质相像,都是长约22核苷酸的小RNA,miRNA通过调节内源基因表达,对生物体的正常生长进行调节;siRNA是外源基因诱导下RNA干涉过程中形成的中间体,介导基因沉默,是基因组免疫系统的重要组成部分。两者都是通过与靶基因配对来抑制翻译过程,但前者部分互补于3′端非翻译区,后者完全互补于靶基因,并切断之。siRNA可能在进化早期已有,由于抑制过于彻底,导致调节不可逆,在进化过程中产生miRNA来代替它,它们对基因组的功能都极为重要。
呼唤信息生物学
昔日自然科学聚焦于物质和能量两个基本范畴,“信息”是第三个基本范畴。生命是物质,但不仅仅是物质;生命是能量,但不仅仅是能量;生命还是信息,信息是生命的精髓。人生殖细胞的DNA只有二千亿分之一克重,从物质组成来讲微不足道,从能量来看也没有什么珍贵,但它包含了生命发育、成长一直到死亡的种种信息。更奇妙的是,这些信息是经过亿万年自然选择,在大自然的随机背景下形成,由大量的偶然性凝练而成的。根据香农的定义,信息是通过对事物随机选取的可能性来度量的,大量信息意味着大量偶然性。物理学对偶然性的习惯处理是进行统计研究, 但自然界教给我们的另一种处理方法是对每一次的偶然性进行随机确定,通过自然选择找出一条最佳或较佳的路线(或序列),这类保留下来的序列反映了大量偶然性背景中形成的生命之序。 如果说物理学是研究能量的学科,那么生物学就是研究信息的学科。
分子生物学需要有一条主线来统领理论研究,这条主线笔者以为是以揭示生命信息流的基本规律为核心,依据这些规律,解释和预测基本的分子生物学实验,并建议将这种研究称作信息生物学。近年兴起的生物信息学是在基因组海量数据出现的条件下,生物学理性化的一种努力,但主要还局限于数据处理的范围;而信息生物学将对生命信息本身,对生命信息的遗传、传输、控制与表达的基本规律进行研究。可以预期,在这种理论观点下,垃圾DNA的本来面貌将被揭示,进化将从信息产生和控制的角度给出全新的理解,各种结构与功能的关系将获得系统的诠释和预测。
信息和能量不同,不具守恒性。信息的扩增是生物学的基本规律之一,它在生物学中的意义如同物理学的能量转换和守恒。薛定谔的微型密码观念对10年后分子生物学的诞生极其重要,但忽略了一个重要方面,没有考虑遗传信息是如何积累扩增和进化的。信息生物学将建立在几个基本规律的基础上,其中第一规律就是信息扩增律:
在DNA、RNA、蛋白质的相互作用下,通过序列复制和编码方式增加,以及基因在基因组间转移等机制,基因组DNA的编码信息量Ic在进化中随时间增长(dIc /dt≥0)。
熵增加是自然界的普遍规律,但此处所说的不是孤立系统,也不是一般的熵增加,而是编码信息量。编码信息量是编码状态数的对数。用4个字母构成的长N的序列来编码,编码状态数为4N,编码信息量为2N。如此序列中有d个位点不参与编码,则编码状态数为4N-d,编码信息量2(N-d)。
序列复制是导致信息量增加的重要原因。重复序列通过变异形成新基因新功能,使编码信息量增加;也可能失活而变成假基因,不贡献编码信息量。产生新编码方式是导致信息量增加的另一重要原因。对于一个复杂系统,由于子系统间的随机作用,而不断增加新的编码关系,这种编码关系往往来源于某种结构匹配和物理化学作用,一般地,总是不断增加的。普适遗传密码的反常和新氨基酸(硒代半胱氨酸、吡咯赖氨酸)的出现就是两个例子,后者来源于无意义密码子的重新诠释。它们表明了进化中信息量的扩增以及扩增是基于新编码方式的建立。
必须强调,这里所说的编码不一定是遗传密码。如miRNA和siRNA就提供了进化中产生不同于遗传密码的新编码关系的实例。miRNA和siRNA作用机理的关键在于形成了一种编码机制,即从mRNA出发,经过包括Dicer酶在内的多种酶的参与,加工成小RNA双链复合物,然后降解成22核苷酸的单链RNA分子,再和多种分子形成称为RISC(RNA诱导沉默复合体)的RNA蛋白质复合体,再通过RISC对靶RNA切割降解而实现功能。又如从DNA的初级转录物到成熟RNA的剪接和可变剪接(切除基因内部不编码蛋白质的内含子)以及RNA编辑(以另一RNA为模板修饰mRNA前体),是另一不同于遗传密码的新编码关系。这些例子都说明任何编码关系的形成都是需要多种因子参与的复杂过程。
生命是DNA、RNA、蛋白质三元素相互作用的信息系统,遗传信息的形成、存储、表达和传输经常是在这三元素相互作用中实现的,三元素相互作用比二元素相互作用增加了更多的可能性和复杂性。如RNA和蛋白质可对DNA序列有运算功能,对DNA中某些位点的某些符号进行修饰(如删除或插入)等。这都将使基因组的编码信息量扩增。又如,基因调节路线可通过蛋白质反作用于DNA,也可由调节基因的转录物作用于操纵子的RNA。老子说:“道生一,一生二,二生三,三生万物。” 总结这三元素在生命过程中的作用,我们不妨引用这样的命题和假设:三=无穷大。
朊病毒(prion)与蛋白质病是三元素相互作用的例子。疯牛病的病原体是蛋白质,有正常Pr P c 和病态PrP sc两种形态,PrP c 有4个α螺旋,而PrP sc中其中2个变成β折叠,此过程没有核酸参与。但这些信息是如何传下来的?一般来说,遗传病的机制存在于DNA、RNA、蛋白质三元素相互作用的网络中;实验表明,PrP c到 PrP sc的转变过程需要寄主RNA分子参与。因此搞清疯牛病遗传机制的关键在于弄清楚这三元素相互作用的网络,此中必有新的编码关系,且这个编码和结构有关。
表观遗传是不同于通常DNA码的信息,主要有三种类型的信息传递方式:通过DNA修饰(如胞嘧啶甲基化)的信息传递;由染色质中组蛋白修饰(如甲基化、磷酸化、乙酰化、泛蛋白化)引起的组蛋白复合体再组织;三是通过双链RNA传递遗传信息。表观遗传也说明了信息编码的多样性和扩增。
编码信息量的增长速度可作为物种进化速率的标度,但是如果这个增长速度仍不能适应环境的剧变(如资源匮乏),那么物种就可能会濒临灭绝。有的细菌在寄生中丢失功能而使基因组的编码信息量减少,这是一种退化现象,不属于信息扩增律描述的范围。
基因组的信息扩增律是否和实验资料一致?与解决垃圾DNA问题有什么关系?已知基因组的进化复杂性和它的大小没有关系,同一门或纲的不同物种基因组大小可能有几十倍甚至上百倍的差别,但各门或纲的基因组最小值从原核生物到真核哺乳动物则是依次增加的[1]。这粗略反映了编码蛋白质的信息量随物种遗传复杂性而增加。此外,还有一个需要重视的规律:基因密度随物种遗传复杂性的增加而明显减小,从原核生物的1 000基因/百万碱基对,到酵母的500基因/百万碱基对,再到哺乳动物的20基因/百万碱基对。这说明基因调节机制的复杂性随着基因组的复杂性而增加。如果除了编码蛋白质的信息量外,把调节机制中的编码关系也算进来,则编码信息量随物种进化而递增的图像就会很清晰。实际上,基因组的复杂性主要来源于基因的功能,决定于基因间的相互作用,不是决定于基因的数量。人类蛋白质结构域和其他动物相比并未增加多少,但它们有不同的蛋白质结构体系,人类细胞质膜和细胞外蛋白质结构体系增大很多,基因的相互作用和基因调控密切相关。
原核生物基因表达调控的机理已被莫诺(J. Monod)阐明,但真核生物基因表达调控的机理复杂得多,可在多个水平发生,最主要是在转录水平。典型地,启动子包含转录起始位点上游10 000碱基对至下游6 000碱基对的范围,含RNA聚合酶和调节蛋白(转录因子)的多个结合位点,由4~8个调节模体(motif)组成一个模块,如增强子、阻遏子等,每个调节模体由5~10碱基对组成。这里的复杂性在于:不同转录因子可识别相近的模体,而对应一定转录因子的模体在各位点上都未必完全保守,且模体的位置可变。所以,基因组中调节模体的数量和性质都是进化中较易改变的。调节模体构成真核基因组非编码序列的相当大部分:考虑到模体的可变性, 如果10碱基对长的模体有410个,每个模体出现一次,它们就约占1.68×108碱基对,是人基因组的二十分之一。由此可见,转录调节机制可能占到了基因组中相当大部分的基因表达调控。以上估算说明了真核生物DNA编码信息量扩增的情况,编码信息量远大于其蛋白质编码区的信息量。
如果基因组信息扩增律是正确的,我们就可以研究每一基因组的编码信息量的演化,并和其他物种的基因组比较,从总体上把握各基因组的垃圾DNA情况,估算其中可能包含的编码关系,搞清这部分“暗信息”的意义。这也将有助于全面认识真核基因调节网络,从分子水平上解决生命活动如何在时间轴上展开这一基本问题。
生物信息学的基本规律
除基因组信息扩增律外,作为信息生物学的基础,至少还有两个方面的问题需要研究,一是关于遗传信息传输各阶段上的信息提取,二是生命信息系统的精确性和对于扰动的鲁棒稳定性。前者是指:从DNA序列中提取基因识别信息、启动子信息、内含子剪切信息,或者从mRNA序列和氨基酸序列中提取蛋白质结构信息等。例如,从DNA序列中提取信息时下面的规律可能是重要的:
基因组DNA的编码序列的多样性在进化中趋向于由各种功能约束规定的稳定值。
这里的多样性与给定编码规则下各种编码状态出现概率的分布有关,包括序列中碱基和碱基片段含量的多样性,一定位点上碱基分布和碱基关联的多样性等。它和信息熵有关,但不是熵,在应用上更便于进行序列(或序列片段)的比较[2]。各编码状态的概率分布受到两个互相矛盾互相补充的因素制约:一是碱基的随机突变,二是功能约束(包括功能进化和功能扩展)造成的碱基保守性,因此状态概率的变化表现出复杂的进化关系。但由于功能约束的进化相对缓慢,而碱基突变是较快发生的事件,因此DNA序列还是显示出一定功能约束下碱基突变导致的随机性,从而使多样性取稳定值。这个特性可用来对序列进行预测;当然,在预测时必须权衡各种多样性的贡献才能获得满意的结果。哈肯(H. Haken)曾经把最大信息原理作为非平衡系统的基本原理,这个规律在提法上和哈肯的最大信息原理有相似处,但实质是不同的。
蛋白质结构预测实质上是一个结构信息如何提取的问题[3],是用纯动力学的方法去处理,还是从寻找编码关系的角度去解决?尽管安芬森(Anfinsen)原理指出蛋白质折叠是系统的自由能极小态,似乎仅从动力学途径就可以找到折叠态。但实际上多肽链的折叠是一个需要细胞内多个分子协助的过程;基因编码多肽链,而多肽链并非成熟蛋白质。蛋白质的功能决定于其折叠,在酶和分子伴侣(其他多肽链)的帮助下,对一个多肽链进行折叠、修饰、修复、保护、输运,也许还有剪切(除蛋白内含子、信号肽外)和组装,才能使它变成活性蛋白质,其中包含的很多编码关系有待探索。除氨基酸序列外,mRNA信息是否对蛋白质折叠有影响也是一个没有解决的问题[4]。所以,遗传信息流从序列到蛋白质结构传输中包含哪些编码关系?有没有某些结构码在起作用?仍然是解决蛋白质折叠问题时需要着重研究的。
关于生命信息系统的精确性和对于扰动的鲁棒稳定性,至少有下面几个规律需要研究:一是通过改变和适当安排冗余提高信息传输的精确性; 二是通过网络结构增加系统的容错性和耐攻击性;三是通过和环境熵交换达到系统的热力学稳定性和保持系统的有序性。为便于读者讨论,试作具体陈述如下[5]:
第一,信息传输的解码误差随信息冗余增加而减小,而提高精确度(减小解码误差)一般可能降低传输效率(减小信息传输量)。香农在信息论中证明:通过重复发射可在一个噪声通道中传输准确信息。推广开来,信息冗余相当于香农模型中的重复发射,尽管分子生物学问题和香农模型并不完全符合,但通过增加信息冗余减小解码误差,并在过程中保持较大的接近通道容量的信息传输量,这在分子生物学中也是可能的。
第二,复杂生物网络具有无标度性、模块性和容错性。近年来一些学者首先从代谢网络证明了度(和一结点联系的边数)的分布遵守无标度幂律,此分布的意义在于:结点数随机减少的情况下,信息不通畅程度(网络直径)没有增加。同时证明了网络中具有高度的蛋白质在传递相互作用时起到了不可或缺的作用;也证明了模块性,保证局部的破坏不会传播到网络的整体。
第三,为抵消不可避免的熵产生,使系统处于低熵有序的热力学稳定态,系统必须和环境接触,有足够强的向外移动的熵流(生命以“负熵”为生);同时,健康细胞可能具有熵产生率极小的特性。
此命题前半部分是一条热力学规律,其证明是显然的。信息量和熵有基本相同的表达式,但两者涉及的自由度不同,有本质的差异,用统计物理学术语来说,信息量是熵在某个子空间上的投影。因此,熵流不等于信息流,但熵流可以负载信息流。伴随着熵的流动,它也负载着漂移信息流和扩散信息流;生命系统的热力学有序性要求它和环境有信息交换。此命题后半部分尚需进一步证明,但已有证据表明癌细胞有比正常细胞更高的熵产生率。
同一个科学,同一个梦想
丘成桐在《京都弦学之会记》一文中写道:“唯至小能窥大,因至美而知真”;又写道:“苟真美之可知,孰天人之难合?”[6]这几句话谈了自然规律探索中的三个关系:小和大、美和真、天和人。
至小窥大:20世纪的微观物理学对自然科学和人类文明的贡献是人所共知的;微电子学是当代技术革命的核心——信息技术的基础:没有粒子物理学就没有今天的精确宇宙学;没有显微镜和解剖学,没有原子分子的知识,就没有近代的生物科学和医学。
至美知真:物理学的基本方程唯有从至美的追求才能得到。这些方程是“造物者的诗篇”,“像歌德式建筑所歌颂的崇高美、灵魂美、宗教美、最终极的美”(杨振宁),光做实验而没有理论思维是得不到的。伽利略、牛顿开启的,爱因斯坦发扬光大的实证性与理性相结合的科学规范在物理学领域取得了光辉成就,这种结合正在向物理学以外的学科(包括生命科学)渗透。
天人合一:哥白尼天体运行理论和牛顿的经典力学把地球看作众多天体中的一员,把天体运动和地面物体运动统一起来,实现天地合一。然而生命现象一直在对物理学进行挑战,似乎必须引入某种活性物质和活力才能解释生命。现代分子生物学的进展已有可能把生命归属于“自然”之内,从天地合一到天人合一,从人类作为自然的外化力量到人和自然的同一化。这样的目标已经显露眼前:人了解宇宙,也了解自己,了解人在宇宙中的发生,最后达到人与自然和谐合一的境界。
自然科学正面临着极大、极小和极复杂三个方向的统一。极大和极小在宇宙演化和基本粒子世界中已经显示其统一,尽管新近精确宇宙学中暗能量之谜表明两大方向的统一还有更多的余地。至于谈到与极复杂方向的统一,那么问题的难度就更大了,科学家的努力刚刚开始。困难的部分原因在于物理科学与生物科学方法的不同,还有就是两大学科发展水平的差异, 物理科学较多地实现和得益于真和美的统一,而生物科学的理性化才刚开始。物质和能量的统一在物理科学中已经完成,生物科学本质上以研究信息为最终目标,而信息和物质能量的统一远未完成。宇宙暗能量和垃圾DNA两朵乌云同时悬挂于眼前,似乎向我们昭示着这个自然科学大统一的目标:物质能量和信息的统一。
丘成桐的四句话中前两句总结了物理科学中统一极大和极小两个方向的经验,后两句指出了把这个经验推广到物理科学和生物科学的统一,推广到天人合一,推广到物质能量和信息的大统一途径。
“同一个世界,同一个梦想”,这个口号体现了奥运的目标和理想。科学是人类崇高的事业,面对自然科学大统一的目标,笔者想说这样一句话:“同一个科学,同一个梦想。”
[1] 余龙,江松敏,赵寿元等译. Lewin B著. 基因VIII. 北京:科学出版社,2005.
[2] Zhang L R,Luo L F. Nucleic Acids Research,2003, 31:6214.
[3] Luo L F,Li X Q. Proteins,2000,39:9.
[4] Luo L F,Jia M W,Li X Q. Biopolymers,2004,74:432.
[5] 罗辽复. 内蒙古大学学报,2005,36(6):653.
[6] 丘成桐. 科学,2005,57:1.