不经意间,一个似熟悉却陌生的科学术语撞入我们的视野———生物信息学。什么是生物信息学?如果你仅仅“顾名思义”,以为生物信息学既涉及生物、物理、化学,又与数学、计算机科学、信息科学等有关,因此内容宽泛无边,那就错了。实际上,生物信息学的内涵十分具体,范围非常明确。由于生物信息学是伴随基因组研究的产生而产生,发展而发展的,因此它主要履行对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释等职责。在完成对自身基因组的测序之后,人类亟需破译基因组所蕴涵的功能密码,攻克基因药物研制和基因诊断治疗等科学颠峰的“后基因组时代”,生物信息学将更加举足轻重。 要破译生命“天书”,仅仅依靠传统的实验观察手段是无济于事的。生命科学的革命性巨变,将生物信息学推到了前台。 关于生命“天书”,中科院生物物理所资深研究员陈润生的描述十分生动到位。他说,生物的遗传物质是一类称为“脱氧核糖核酸”(DNA)的生物大分子,它是由4种核甘酸(即碱基,通常用字符A、T、G、C代表)串接起来组成的。通俗地说,生物的遗传密码就是由这4个字符串成的“线状长链”。这种“链”往往很长,比如人的遗传密码就含有32亿个字符,将它们堆起来就构成了一部有100多万页,每页含3000个字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息,但它仅仅是由4个字符组成,既无“语法”,又无“标点符号”,看上去每一页都相似。如何读懂它是个极大的难题。 伴随基因组研究的展开,相关信息出现了“爆炸性”增长。根据国际数据库的统计,1999年12月已知的生物DNA碱基数目为30亿,2000年4月达到60亿,至今已超过140亿,大约每14个月就翻一番。科学家指出,如果不把生物学问题转化为数字符号,进行依赖于计算机的信息学处理,生命天书将永无解密的一天。 据介绍,现有的DNA测序仪每个反应只能读取几百到上千个碱基,因此要“通读”全部32亿个人类遗传密码,就必须首先把人的基因组打碎,测完一小段一小段的序列后,再把它们重新拼接和组装起来。在这个过程中,特别需要把实验设计和信息分析时刻联系在一起,否则多达数千万个的小片段就失去了“上下文”的联系。另一方面,还要按照不同的步骤要求,发展适当的算法和软件。2001年春天,包括中国科学家在内的多国科学家宣布绘制成人类基因组“工作草图”,即测得了人类基因组的绝大部分序列。而得到这些序列,是把人类基因组打碎后,利用超级计算机,拼接和组装了大约5遍才实现的。 在人类基因组测序“大战”中出尽风头的美国塞莱拉公司最近宣布,将退出新一轮基因组测序的竞争,集中精力挖掘蕴涵在基因序列中的信息,寻找制药的“靶点”。从中我们明显嗅到后基因组研究“涨潮”的讯息。 近日来北京参加“第二届中国信息学大会”的Stephen教授向记者透露了塞莱拉公司的最新动向。这位美国国家生物技术信息中心的高级科学家说:“尽管塞莱拉公司在人类基因组测序的竞争中非常成功,而且可以说他们做了一件大好事———就是使人类基因组计划的公共投资得到了强化。但是,目前他们已经从‘卖基因数据库’转而集中精力‘寻找制药的靶点’。这是一个非常值得关注的现象。” “进入后基因组时代”,这句话人们已经说了不少日子了。但从塞莱拉这样美国最大基因组研究与开发私营公司的战略重点转移,人们得以真正清晰地看到了“攻坚”的轨迹。 人类基因组计划所推动的大规模DNA测序,为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象(圈内称作“靶点”)。生物信息学为分子生物学家提供了大量对基因序列进行分析的工具,不但可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面大大加快新药开发的进程,而且可以大大加快传统的基因发现和研究,因而成为各赢利性研究机构和医药公司争夺基因专利的重要工具。 有的人吸烟喝酒却长寿;也有的人自幼就疾病缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效,这是为什么? 人类基因组研究对此的回答是,他们的基因组存在差异。这种差异很多表现为单个碱基上的变异。科学界目前普遍认为对单个碱基变异,也就是基因多态性的研究是人类基因组计划走向应用的重要步骤。因为它可以为高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究提供一个强有力的工具。有人估计与癌症相关的原癌基因约有1000个,抑癌基因有100个,约有6000种以上的人类疾患与各种人类基因的变化相关联。随着人类基因组研究的不断深入,当我们知道了人类全部基因在染色体上的位置、它们的序列特征以及它们的表达规律和产物(蛋白质等)特征后,人们就可以有效地判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。专家指出,在研究中至少有两项生物信息学工作非常重要。一是构建与疾病相关的、包括基因多态数据库在内的人类基因信息数据库。二是发展有效地分析基因分型数据的生物信息学算法,特别是将基因多态数据与疾病和致病因素相联系的计算方法。 在不同的组织(心、脑、肺等)中,基因表达的时空差异是很大的,为了得到不同时间(如人的幼年、中年及老年)、不同组织的基因表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术,这就是基因芯片(或称DNA芯片)技术和大规模蛋白质分离和序列鉴定技术(也称蛋白质组技术)。由于芯片上样品点的密度很大,可以达到每片几十万个,因此基因表达谱数据的挖掘和知识积累就成为该研究成败的关键。这显示无论是基因芯片还是蛋白质组技术的发展,都更强烈地依赖生物信息学的理论、技术与数据库。 今年2月16日出版的国际著名医学杂志《柳叶刀》发表了美国食品与药品管理局(FDA)与美国国立癌症研究所一项合作研究的结果:从手指取少量血液,应用目前最先进的SELDI蛋白质芯片技术,在30分钟内就可以知道是否患有卵巢癌,诊断准确率达到95%,癌症阳性预测率达到94%(目前普遍使用的诊断方法仅达到20%左右)。据介绍,所谓SELDI蛋白质芯片技术,就是把“表面增强激光解析电离”(SELDI)技术与人工智能计算机技术相结合,通过分析人类血清蛋白质波谱的变化,来捕捉疾病早期的“蛛丝马迹”。在上述这项研究中,全部Ⅰ期卵巢癌病人的血清无一“漏网”,全部被计算机识别出来。 此外,今年4月召开的美国肿瘤协会第93次年会又公布了SELDI蛋白质芯片技术在前列腺癌、乳腺癌、膀胱癌、肝癌、肺癌等恶性肿瘤的早期检测中也得到同样令人兴奋的结果———这是生物信息学推动人类癌症研究进步的最新实例之一。 对仅占人类基因组1.1%的编码蛋白质的区域(基因)的相关研究就已经缔造了数十个诺贝尔奖得主,可以预见,对多达98%的非编码区的认识历程,将更加异彩纷呈。 中科院强伯勤院士近日在“第二届中国生物信息学大会”上谈到:“今后DNA序列数据的增长将更为惊人。而且生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。他说,与正在以指数增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)显得十分缓慢。一方面是巨量的数据,另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。”毫无疑问,这些巨量的数据与解析数据的能力之间的矛盾还将日益尖锐,生物信息学作为解决这个矛盾最前沿、最具活力的新兴力量必将主演一场生命科学大戏。 专家指出,生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起到巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。 因此,各国政府和工业界对生物信息学研究极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心、欧洲生物信息学研究所、日本信息生物学中心等。这些机构相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。 它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。最近两三年,美国一些最著名的大学,如哈佛、斯坦福和普林斯顿大学等都投资几千万到一亿多美元成立了生物、物理、数学等学科交叉的新中心。1999年6月,美国国立卫生研究院(NIH)的一个顾问小组建议在生物计算领域建立总额为数亿美元的重大科研基金,并成立5到20个计算中心来处理海量的基因组相关信息。 生物信息学在中国生命科学舞台上渐成气候,但是还有不少问题与困难需要解决和克服。 长期以来,“中国生物信息学研究起步晚”,几乎已成定论。但是,这要看怎样算。 实际上,在生物信息学成为一个独立的学科之前,作为其重要学科基础的生物物理学研究在我国已有了较大的发展。20世纪70年代,中科院生物化学研究所首先开展生物分子的手性和生物起源中的对称性破缺研究,并将非平衡热力学、非线性物理学、耗散结构和混沌理论等引入理论生物学研究,同时培养了一批人才。随后,在国家“863”计划的支持下,我国从“七五”初期开始在蛋白质结构预测、结构模拟和药物设计领域开展工作,并取得突出的成绩,先后造就了施蕴渝、陈凯先、王志新、张春霆等中科院院士。 而且,即使是对于DNA序列信息的研究在我国起步也不算晚。20世纪80年代初,内蒙古大学的罗辽复教授、中科院生物物理所的陈润生研究员和天津大学的张春霆教授等就先后开展了DNA序列信息分析的研究,改进或发展了信息论、密码学和几何学等方法。20世纪80年代末,国际人类基因组计划一开始,陈润生研究员等就及时转入了基因组信息学的研究。1993年,国家自然科学基金委确立我国人类基因组研究第一个重大课题“中华民族若干基因位点的结构和功能研究”,开始资助基因信息组学研究。尽管当时的资助力度不大,但仍有力地推动了这一领域的发展。 20世纪90年代中期以后,由于人类基因组研究的巨大进展,生物信息学的相关研究在我国有了更大的发展。像清华大学在基因调控及基因功能分析、蛋白质二级结构预测,天津大学物理系和中科院理论物理所在相关算法,中科院生物物理所在基因组大规模测序数据的组装和标识,北京大学在蛋白质分子设计,华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立等方面均已取得阶段性成果。此外,复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模。 但是,我国生物信息学研究与发达国家的差距也是有目共睹的,特别是在研究规模和人才培养上的差距尤其明显。为此,我国科学家提出,立足国情、艰苦奋斗发展我国的生物信息学事业势在必行。他们认为,要创造一个更加宽松的学术环境,建立联合教育培养多学科背景人才的机制,加强生物信息学学科建设的延续性,避免重复投资建设,搞全国一盘棋和多学科大协作等是非常重要的。同时还应适当地支持拥有我国自主知识产权的算法、软件的后继开发、包装工作,这不仅仅因为其潜在的商业利润,更要逐渐确立中国在世界生物信息学领域的地位。 目前,在国家有关部门的支持和科学家的呼吁下,我国国家级生物信息学中心正在筹建之中。各地政府也给予了足够重视,如北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考意见。 正如中科院副院长陈竺院士最近在“第二届中国生物信息学大会”上所指出的:“人类基因组计划草图的完成是各国生命科学制高点角逐的序幕,真正白热化的竞争才刚刚开始。”人们衷心希望,越来越得心应手地使用生物信息学这把开启后基因组时代“金钥匙”的中国人,能够早日实现生命科学的跨越式发展。