东方科技论坛第60次学术研讨会于2005年7月2~3日在上海沪杏科技图书馆举行。本次论坛由上海生物信息技术研究中心与复旦大学生命科学学院共同承办,论坛主题为"计算生物学最新进展"。中科院上海生命科学研究院赵国屏研究员和新加坡国立大学计算科学系陈宇综教授共同主持了会议。
一、会议背景
随着人类基因组计划的实施和深入,生物学数据积累出现了前所未有的飞跃。不仅数据量呈指数级增长,而且,数据的本质出现了从生理生化数据向遗传信息飞跃以及进一步向遗传与结构功能相互关系信息的飞跃。这种科学数据的急速海量积累,在人类的科学研究历史中是空前的。如何从这些海量的生物学数据中提取有用的知识,成为了对当前生物学家、数学家、计算机专家等的巨大挑战。由此引出了一门新兴学科:计算生物学。计算生物学是指开发和应用数据分析及理论的方法、数学建模和计算机仿真技术,用于生物学研究的一门学科。计算生物学正在成为现代生物学研究的核心方法之一,它们的重要性和复杂性在当前生物学数据量的不断增长中日益得以显示,要回答的问题越是复杂就越显得尤为突出,使得计算生物学成为当今生命科学最具活力的新兴前沿学科之一。计算生物学运用大规模高效的理论模型和数值计算来识别基因组序列中代表蛋白质的编码区,破译隐藏在核酸序列中的遗传语言规律;直接从蛋白质序列预测蛋白质三维结构以及动力学特征,研究生物大分子结构与功能的关系、生物大分子之间相互作用以及生物大分子与配体的相互作用,促进蛋白质工程、蛋白质设计和计算机辅助药物设计的发展;同时,归纳、整理与基因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,模拟生命体内的信息流过程,从而认识代谢、发育、分化、进化的规律,使从基因组科学新视角来探究人类健康和疾病各个方面,将人类基因组计划的成功转化为医学领域的进步成为可能。
运用计算生物学,科学家们有望鉴定基因和途径在健康和疾病中的角色,挖掘它们与环境因素之间的关系;发展、评价以及应用以基因组为基础的诊断方法来预测对疾病的易感性,预测药物反应,疾病的早期诊断标记,疾病在分子水平上的发展机制;应用基因组和代谢通路的知识,通过分子模拟等方法进行计算机辅助药物设计,缩短新药开发周期,从而开发有效的、新的疾病治疗方法;发展基于基因组的工具来改善大众的健康状况,从而促进人类基因组计划造福于人类。
当前,计算生物学在国际上受到高度重视。美国国立卫生研究院(National Institutes of Health,NIH)是世界上从事生命科学研究最重要的研究机构,它的年度预算占了美国政府科学投入的60%左右。在人类基因组计划的完成和后基因组时代的到来之际,NIH经过与来自美国学术机构、政府部门和私人团体的300多名生物医学权威人士长达一年多时间的一系列讨论,于2003年形成了一个通向生命科学未来的"中长期发展规划"--国立卫生研究院路线图(NIH Roadmap)。NIH路线图中启动了一个"生物信息学和计算生物学"计划,希望通过这个项目的实施而铺设一条通向生命科学未来的"信息高速公路"。该项目计划从2004年开始,建立数个"国立生物医学计算中心"(National Centers for Biomedical Computing),以便开发相关软件和数据管理工具。2003年,NIH下属的国家人类基因组研究所(The National Human Genome Research Institute,NHGRI)负责人在Nature上发表了题为"基因组学研究前景展望"的文章。文章中所述的基因组研究展望来自上百位科学家和社会公众,举行了十几场讨论会和无数的与个人之间的探讨,历经近两年的热烈讨论。文章将对基因组研究的展望分为三个主题和六个横切面,三个主题是:基因组学与生物学、基因组学与健康和基因组学与社会;六个横切面是:资源、技术发展、计算生物学、培训、伦理法律和社会应用,以及教育。六个重要横切面与所有三个主题相关,而计算生物学是重要要成分之一。
在国内,我国国家自然科学基金委员会将计算生物学作为重点资助的研究方向之一。对于将生物医药产业作为重点发展高科技产业的上海市,对计算生物学研究更是高度重视。2002年,中科院上海药物研究所与美国SGI计算机公司联合建立的计算生物学实验室在上海药物所揭牌成立。中科院和德国最大的研究机构-马克斯·普朗克学院合作,筹划在上海合作开展计算生物学研究,且于2004年6月在中科院上海生命科学研究院举行了计算生物学研究所成立筹备会。IBM是全球唯一一家能够将其专业研究技术应用于计算生物学、并行计算的公司。2002年,IBM与上海生物信息技术研究中心以及英国InforSense公司一起,合作建立了高性能的生物科学研究实验室,合作进行计算生物学方面的研究和开发。因而,在上海举行计算生物学学术研讨会,将促进我市和我国对计算生物学这一前沿研究领域的更好发展,并对我市生物医药学产业的发展起到积极的推动作用。
由于分子模拟和计算机辅助药物设计是当前计算生物学中的热点问题,又是计算生物学与生物医药产业结合最紧密的方向,计算生物学在这些方面取得的进展将直接推动生物医药产业的发展,因此,本次会议将生物大分子计算模拟,计算机辅助药物设计和计算生物学的发展及未来方向作为中心议题。
二、会议简况
中科院上海分院院长、上海市科协主席、东方科技论坛理事会副理事长、著名核物理学家沈文庆院士出席了开幕式并讲话。他首先对本次论坛的召开表示热烈祝贺,同时也对与会代表提出了殷切的希望。沈院士肯定了东方科技论坛是上海地区具有重要影响的高层次论坛,但也存在着一些需要改进的地方,如减少偏多偏长的报告,增加与会代表讨论的时间等。他希望各位专家、代表能够为我们的上级领导和有关部门提出一些宏观或具体的指导意见,为本学科领域的未来发展阐明方向;同时也要更加重视论坛每期简报的撰写,使其真正成为具有实际指导意义的文件。
会议执行主席、中科院上海生命科学研究院赵国屏教授接着讲话。作为国内生物信息学领域的先驱之一,他回顾了计算生物学和生物信息学在上海的发展历程。他认为,"九五"期间上海的计算生物学研究开始迅速发展,进入"十五"可以说更是突飞猛进。中科院和德国最大的研究机构--马克斯·普朗克学会合作,在上海联合开展计算生物学研究,并且在中科院上海生命科学研究院成立了计算生物学研究所。几天之前,上海市生物信息学会成立大会隆重举行,标志着上海地区生物信息学及计算生物学的发展进入了一个崭新的阶段。计算生物学的任务就是将生物学问题转化为数学表达,其发展对医药产业至关重要。东方科技论坛是一个重要的学术交流和讨论平台,我们应充分利用这一平台来研讨我们想要解决的问题,学术讨论与交流的内容要与学科、产业及社会发展相结合,同时要注意做好会后的总结,产生建议,并真正加以落实。
本次论坛另一位执行主席、新加坡国立大学计算科学系系主任陈宇综教授作了主旨发言。他首先介绍了什么是计算生物学。国际上对计算生物学已经有明确定义,它系统发展并将计算系统和计算技术应用于解决生命现象中的实际问题,是用高级计算方法来管理、分析生物学数据并从中挖掘发现知识的一门学科。他举了两个计算生物学的成功范例。一个是基因和蛋白质序列分析工具BLAST,其应用之广、影响之大可以说是空前的,在10年的时间里该算法的引用率高达10万多次。另一个是HIV蛋白酶抑制剂的设计,全世界多家药厂经过多年的研发和筛选,现在已经有Inverase、Norvir、Crixivan、Viracept等HIV蛋白酶抑制剂进入市场,这背后蕴涵了大量计算生物学家的工作。总之,计算生物学是一门相对年轻但发展十分迅速的学科,《计算生物学杂志》(Journal of Computational Biology)的影响因子从1999年的1.6上升到2004年的4.4就很有力地说明了这一点。
出席会议的代表有来自美国加州大学河边分校、美国默克制药公司、新加坡国立大学、日本大阪产业大学、上海第二医科大学、中国疾病预防控制中心寄生虫病预防控制所、哈尔滨医科大学、北京大学生物信息中心、清华大学、暨南大学信息科学技术学院、南京大学、第二军医大学、四川大学化学学院、上海大学、东华大学生物科学与技术研究所、上海交通大学医学院、国家人类基因组南方研究中心、中科院上海有机化学研究所、中科院上海生命科学研究院、复旦大学生命科学学院、上海生物信息技术研究中心等20多个大学及科研院所的30多位著名专家和学者。
三、会议内容
本次学术研讨会围绕主题,对当前计算生物学中的热点问题就以下3个专题进行了全方位、系统性地阐述,同时也展开了热烈的讨论:1、计算机辅助药物设计;2、生物大分子计算模拟;3、计算生物学的发展及未来方向。本次研讨会的召开对促进我国计算生物学、生物信息学及相关领域的研究,加速生命科学中复杂系统的研究进程,提高我国前瞻性、个性化生物医药的研发水平具有重要的意义。
新加坡国立大学计算科学系主任陈宇综教授作了题为"药物相关蛋白质的计算技术及在新药开发中的应用"的报告。所谓药物相关蛋白质,就是说我们总是选择一些与疾病作用过程息息相关的蛋白质作为药物的主要作用靶点,如果能够阻止这些靶点的致病作用,则药物也就可以发挥治病功效;而药物-靶点之间的相互作用遵循的是"钥匙和锁"机制。ADME(吸收、分布、代谢及排出)是药物设计时要考虑的关键因素,需要不断地进行优化。大多数药物的开发,之所以会以失败告终,最主要的原因就是ADME与毒副作用。我们要在分子水平上找到疾病所对应靶点,就要先建立蛋白质结构模型,通过高通量筛选,再结合分子化学方法如QSAR,预测其ADME等药物动力学性质,符合要求的才能进入临床试验阶段。新加坡国立大学计算科学系建立了一个药物靶点数据库TTD(Therapeutic Target Database),包括1174个药物靶点和1251个药物/配体。通过对该数据库数据的分析,发现好的药物靶点一般都分布在1-2个代谢途径上,而且倾向于与人类蛋白质的相似度较低。那用什么方法来寻找这些靶点呢?这就是计算学的问题。常用计算方法有两大类,一类是基于序列相似性的,其特点是准确度高,容易使用,但对于新出现的靶点则束手无策;另一类是基于结构和物理化学特性方面的相似性,它适用于传统的和新兴的靶点,但要求现有靶点有较高的代表性。如果没有确切的关于靶点三维结构的信息,可以使用支持向量机(SVM)等人工智能的方法来建立模型。
复旦大学/华东理工大学药学院的唐赟教授作了题为"HIV-1 整合酶的分子模拟与抑制物设计"的报告。HIV病毒编码反转录酶、蛋白水解酶和整合酶(IN)这三种酶。整合酶在人类细胞中并无已知的结构类似物,因此,它就成为了抗HIV药物设计的理想靶点。根据前人研究工作积累的经验,唐教授认为了解整合酶以及它和病毒DNA和金属离子形成的复合物的结构信息是开发整合酶有效抑制剂的关键,于是采取了如下策略:首先建立全长HIV-1整合酶以及它和病毒DNA和金属离子形成的复合物的三维结构模型,然后获得IN-DNA-抑制物对接模型,并且使用它作为设计强有力、高选择性抑制物的平台。根据这个思想,唐教授领导的研究小组已经建立了相应的模型,进而预测了一批参与形成IN-DNA界面静电及氢键相互作用的氨基酸残基,并与实验证据相吻合。
四川大学化学院的薛英教授作了题为"通过支持向量机方法预测化合物的药理动力学和毒理学性质"的报告。她首先介绍了支持向量机的方法以及他们使用的一系列用来对分子结构和物理化学性质进行数学表征的分子描述符,如拓扑描述符、量子化学描述符和几何描述符等;为了提高支持向量机的预测精度和模型的直观性,她又接着重点介绍了他们采用的变量选择方法---递归变量消除法。通过P-糖蛋白底物、人类小肠可吸收分子、可穿透血脑屏障的药物以及梨形四膜虫毒性化合物等几个案例和相关测试数据集,比较了该支持向量机方法和一些其它预测方法(如k-NN,PNN,决策树等)各自在准确率、敏感性等方面的实验数据,指出结合分子变量选择的支持向量机方法可以在预测化合物的药理动力学和毒理学性质方面大有作为。
哈尔滨医科大学生物信息系的李霞教授作了题为"基于生物谱的复杂疾病基因挖掘"的报告。她说,功能基因组学强调在基因组水平或系统水平阐明基因功能,包括人体中全部基因的位置、结构、功能、表达、调控方式及致病突变的全部信息,而生物信息学已经成为功能基因组学研究的重要工具。生物谱主要是指遗传谱(SNP标记、MS数据)、表达谱(基因芯片表达谱数据、EST和SAGE数据)和蛋白质谱(2D-PAGE数据)等信息。复杂疾病有很强的遗传异质性,即表型相似的疾病可能是由不同的遗传机制所造成的。所以,我们需要在基因组与蛋白质组水平上研究和发展高通量生物信息数据挖掘新方法和新技术。她介绍了基于"遗传谱同胞对连锁分析"的模式识别方法GMSP,以及应用该方法在遗传性耳聋基因识别、酗酒的分子遗传机制等研究中得到的成果。李教授着重强调了在生物芯片平台上进行研究的必要性,介绍了芯片研究算法及平台设计的一些方法和技巧;对于复杂疾病如弥漫性大B细胞淋巴瘤,对其进行异质性分析时要使用特别的基因网络方法,包括构建决策树、评估和确认调节关系和建立调控网络等步骤。
美国加州大学河边分校的姜涛教授作了题为"通过基因组重排计算直系同源基因的分配"的报告。他首先介绍了直系同源基因的概念和研究直系同源基因的重要性,指出其在分子进化分析、蛋白质结构及功能预测、功能域确定、代谢及信号转导途径重建等诸多方面所起到的关键作用。然后姜教授对现有的一些分配直系同源基因的方法,如BBH、COG、INPARANOID、ORTHOMCL、TOGA等,进行了简要的回顾,重点评述了它们各自的优缺点。这些已有软件的一个共同特点就是都主要依靠序列相似性信息,没有考虑基因在基因组上的具体位置。姜教授认为,一套完备的直系同源基因分配体系还应该综合利用分子进化的信息,包括局部的突变和全局范围的重排。直系同源可能对应于最简约的重排方式,根据这个思想,姜教授将问题用数学语言表达成为两个基因组复制基因之间反向带号距离(SRDD)的问题,这是一种在过去文献中没有出现过的全新思路。姜教授进一步提出了解决SRDD问题的算法途径,包括将其优化成的最小共同分割(MCP)和最大循环分解(MCD)问题。根据这些算法,姜教授及其领导的小组开发了一套高通量基因组层面上分配直系同源基因的系统,命名为SOAR,并用模拟数据和来自人、小鼠、大鼠X染色体的实际基因组序列数据对其进行了测试。与INPARANOID软件相比较,发现两者虽然使用的是完全不同的方法,但殊途同归,它们的结果非常接近,SOAR的灵敏度略高于INPARANOID。姜教授最后还就如何进一步改进该方法提出了一些设想。
日本大阪产业大学电机工程与电子系的陈洛南教授作了题为"细胞系统中基因调控网络的建模"的报告。他首先回顾了人工合成基因网络的发展历史,阐明在DNA水平上对细胞调节进行控制的必要性。考虑到传统的还原论结合反向工程的方法,因为数据量不够多的缘故而比较难于进行,陈教授倡议一种正向工程(Forward Engineering)的手段,直接从最简单的形式入手构建系统模型。根据这个思想,陈教授使用泛微分方程(FDE)作为数学模型构建了一些低等生物,如酵母、大肠杆菌的基因调控网络,并且综合考虑了各种"噪音"干扰。
北京大学生物信息中心的罗静初教授作了题为"水稻基因组的复制和DNA片断丢失及其对二倍体形成的影响"的报告。他指出,许多目前从分子遗传学和细胞遗传学上被认为是二倍体的高等植物种类,在古代其实都是多倍体的,水稻也是如此。最近郝柏林院士的学生王希胤及其同事,以及美国和比利时的科学家都在开展水稻基因组重复序列的研究。采用共线性方法,发现水稻基因组中有两次大规模复制事件发生,时间分别是7000万和500万年前;然后随之发生了重复片断的DNA丢失和DNA重排,从而导致二倍体型的最终形成。
南京大学生命科学院的王进教授作了题为"Annexin V导向的抗凝融合蛋白设计与模拟"的报告。该项工作的目的,是要构建一个融合蛋白,具备活化血小板导向性和抗凝血酶双重功能,以达到高效、安全的抗凝目的。设计的原则是要兼顾弹性与柔性,确保上述两项功能都不丢失;蛋白质之间融合连接方式的设计,必须考虑动力学效应。由于Annexin V对暴露于活化血小板表面的磷酯酰丝氨酸具有高亲和性,而水蛭素是迄今发现的对凝血酶最强的天然抑制物,所以可以将Annexin V与水蛭素C-末端抑制凝血酶肽段相连接构成融合蛋白分子。根据这个思路,王教授领导的小组构建了一系列融合蛋白,并对它们进行了动力学分析。
清华大学自动化系/生物信息学教育部重点实验室的张学工教授作了题为"再看高通量表达数据的机器学习分析"的报告。作为机器学习方法的重要一部分,张教授重点解析了如何使用统计和分类的方法分析癌症基因组的生物芯片数据。摆在我们面前的任务有两个:一是开发出诊断工具;二是对其生物学意义有更加深入地理解,找出疾病或疾病亚型的分子机理。常用方法有两大类:一种是过滤加分类的两步法;另一种是封装(wrapper)这种基于递归的方法。张教授以递归支持向量机(R-SVM)为例,重点介绍了后面一种方法,及其在白血病基因芯片数据分析中的应用。
最后,美国默克制药公司的陈荣华博士作了题为"应用计算基因组学和芯片技术发现基因"的总结性报告。他首先让大家对新药开发的艰巨程度有了更加清醒的认识。在美国,一个新的药物要想获得批准进入市场,必须经过临床前严格的检测及临床I、II、III期实践检验,这个过程通常需要12年,耗资8亿美元。随着后基因组时代的到来,一方面我们已经积聚了大量的基因组数据,另一方面生物信息学算法和数据库也取得了很大的进展,这就为计算基因组学在药物开发方面大显身手创造了条件。运用计算基因组学,可以解析基因结构和功能,找出可能作为药物靶点的基因表达产物,同时研究基因之间的相互作用;但这也面临着巨大的挑战,包括海量序列数据、人类基因组以及基因功能的复杂性等。陈博士就利用计算基因组学方法进行基因识别作了详细地介绍。他所领导的小组开发了一套高通量基因组分析流程,用来创建综合的基因模型目录,然后使用芯片技术对用计算方法找到的基因加以验证,对于特别感兴趣的基因,则优先进行实验验证,并评估其作为潜在药物靶点的作用。
四、专家共识和建议
伴随着每一个发言者的报告,与会专家都展开了活跃地讨论。例如,在陈荣华博士的报告中提到了非编码的RNA基因及其对mRNA表达的调控,就引起了大家的浓厚兴趣。王进教授关心如何掌握受microRNA调控的mRNA水平,陈博士指出这主要看其它基因的变化情况,结合通过计算得到的匹配结果、3'-UTR的比对等。陈洛南教授询问microRNA是否直接作用于蛋白质,陈博士对此作出了澄清:过去的观点认为microRNA可以作用于蛋白质,但最新的实验表明microRNA能够直接分解mRNA,而没有证据支持其和蛋白质有直接作用。
经过长时间热烈的讨论,专家们达成了如下共识及建议:
1、在可以预见的未来很长一段时间里,计算生物学/生物信息学将是生命科学研究的重点发展方向。对生命现象系统层面的特性,科学家们将首先建立其计算模型,并将其作为实验和发现的基础。这对于疾病的预防和有效治疗、食品生产过程的优化以及环境保护等诸多方面都有着十分重要的意义。在过去十年里,计算生物学已经取得了长足的进展,如序列比对工具的发展、爱滋感染计算模型的建立、疾病易感基因的识别和计算机辅助药物设计等。但同时我们也应该清醒地认识到,我们面临的挑战仍然很多,有的还相当艰巨,如药物化合物的生物信息学筛选、根据复杂分子的结构预测其功能、提高蛋白结构预测的精度、建立更加准确、有效、综合的系统动态模型、基因组的完全注释等,这些都需要一大批从事生命科学和计算科学研究的专家学者投入更多的精力。
2、计算生物学是一门交叉学科,需要生物学家、计算机学家、数学家等来自不同背景的研究人员通力合作。首先,我们要解决的问题从根本上说是生物学问题,因此要从生物学问题入手。但是,生物问题非常复杂,系统非常大,如果不建立数学计算模型对其加以简化,那是很难下手的。对于海量的生物学数据,如何从中挖掘出最有用的信息,是对生命科学以及医药研究的巨大挑战。计算生物学家的任务,就是与生物学、药学等紧密结合,提出解决问题的方法学。因此,构建一个可以让不同专业背景的研究人员相互沟通交流的平台,形成不同团体相互协调合作的机制,对于计算生物学的发展,是非常重要的。我们需要不断的探索发展这样的平台和机制。
3、计算生物学代表了未来生命科学和生物技术研究的发展方向。中国要在生物科技领域占有一席之地,就必须在计算生物学方面有所作为。上海在生物科技上有着雄厚的实力和强大的优势,在国内居于领先地位,并且已经在计算生物学的发展上有了一个良好的开端和态势。但是,我们也应该充分认识到,与国外有实力的大学、研究所、制药公司等研发部门相比,我国的计算生物学研究,无论是从人数和资金投入来说,都还非常不成规模,难以形成集群优势。在这一点上,上海应走在全国的前列。建议上海加强对不同院所之间的整合,加大对计算生物学和生物信息学的重视和投入,构建一个良好的计算生物学平台,充分发挥上海在生物研究方面的优势,在未来的生物学发展中,为我国的科技事业、为人类科学发展做出更大的贡献。