欧阳曙光 贺福初*
单位:军事医学科学院放射医学研究所,北京100850.
* 联系人 1998-11-12收稿,1999-02-29收修改稿
致谢 本工作为国家杰出青年科学基金(编号: 39625014)与国家自然科学基金(批准号:39730310)重点资助项目.
摘要 大量的蛋白质和核酸数据的积累与理性地分析这些数据中所蕴涵的生物学意义的双重需要,产生了综合生物学研究与计算技术研究等领域最新成果的交叉性学科“生物信息学”. 分别从基因序列或蛋白质结构等生物信息数据库、基因组分析或蛋白质结构分析等常规生物学计算软件、基因组数据库检索或蛋白质空间结构识别与预测等在线生物学计算服务器、人工生命等几个方面,概述了发展中的生物信息学的最近动态和有关信息,并同时提供了相关的热门生物信息学站点和资源在互联网上的超文本或文件传输协议地址. 此外,还介绍了讨论组、新闻组等其他形式的医学、生物学、信息学资源. 最后,就生物信息学存在的问题与前景进行了讨论,指出生物信息学将是一次国际性的科学大协作,也是我国生命科学振兴的一个新契机.
关键词 生物信息学 生物信息 分子生物学 计算机科学 互联网
--------------------------------------------------------------------------------
1 概述
蛋白质与核酸测序技术应用以来,已积累了极大量数据. 同时,基于典型西方哲学演绎与解析的分析思路而建立的组合化学数据库已经成为合理分子设计(rational molecular esign)的重要支柱,为创造全新的非自然产物提供了可能. 所以,将新颖的计算技术与方法应用于经验和理论生物学研究的时代已经到来,生物信息学由此诞生. 但生物数据的海量性和复杂性又都是组合化学等其他数据密集型科学所不及的,这也是生物信息学所面临的更大挑战.
一般意义上,生物信息学研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,它通过综合数学、计算机科学与工程和生物学的工具与技术而揭示大量而复杂的生物数据所赋有的生物学奥秘. 它作为一个交叉学科领域而荟萃了数学、统计学、计算机科学和分子生物学的科学家,目标就是要发展和利用先进的计算技术解决生物学难题. 这里所说的计算技术至少包括机器学习(machine learning)、模式识别(pattern recognition)、知识重现(knowledge representation)、数据库、组合学(combinatorics)、随机模型(stochastic modeling)、字符串和图形算法、语言学方法、机器人学(robotics)、局限条件下的最适推演(constraint satisfaction)和并行计算等. 而生物学方面的研究对象覆盖了分子结构、基因组学、分子序列分析、进化和种系发生、代谢途径、调节网络等诸多方面.
许多研究与发展组织都预测:基因组学研究将会彻底革新未来鉴定生物学产物和选择更佳目标用于小分子生物功能筛选的过程. 随着基因组研究规模扩大,生物信息学将原始序列数据转换为有意义的生物学信息之重要性也随之增长.
严峻的挑战和巨大的机会往往出现在相同的时间和地点. 生物信息学各个分支都亟待改进和提高的3个方面是:更加有效地处理大规模的数据、建立通用的智能型工具、使所有的操作程序自动化.
--------------------------------------------------------------------------------
2 生物信息数据库
目前,国际性合作的几个基因组计划已经积累了超大量的生物信息并以不同组织形式构成许多数据库. 其中一些属于商业数据库需要预先注册和付费才能检索,而更多数据库是公开和免费的并可通过互联网络(Internet)访问. 随着研究深入,公共数据库越来越成为世界各地生物学家的重要给养.
美国国家实验室(Brookhaven National Laboratory, BNL)的蛋白质数据库(Protein data bank, PDB)可同时提供蛋白质序列及其三维空间晶体学原子坐标. 其中受体?配体、抗原-抗体、?底物-酶复合物等相互作用分子的共结晶图谱是基于同源比较的分子设计所需的最佳模型,因此PDB为初步的蛋白质合理设计提供了无价的知识来源. 其超文本传输(hyper text transfer protocol)地址为http://www.pdb.bnl.gov/,文件传输(file transfer protocol)地址为ftp:\\ftp.pdb.bnl.gov/pub/databases/pdb/all_entries/compressed_files/. PDB在几个世界著名科研机构所在地设有镜象站点(mirror site),如欧洲生物信息学研究所(European Bioinformatics Institute, EBI)的http://www.ebi.ac.uk/pdb/和ftp://ftp.ebi.ac.uk/pub/databases/pdb/,北京大学物理化学研究所的http://162.105.177.12/npdb/和ftp://162.105.177.12/fullrelease/compressed_files/等.
超文本版本的细胞系数据库(Hypertext version of the cell line data base, HyperCLDB)专门提供欧洲各家实验室和捐献站的人和动物细胞系的信息超过. 目前已有3100种以上的品系,在其说明中能查到可以从哪些实验室获得,并显示每个术语或数值在总词汇表和索引表中的出现频率. 还有指向在线人类孟德尔遗传(Online mendelian inheritance in Man, OMIM)记录的链接,提供较为深入的病理学知识,从病理学家名录到与某个特定病理过程相关的细胞系资料. 直接指向URL提醒系统(reminder system)的链接可在所注册的网页更新时就用电子邮件提醒用户. HyperCLDB的搜索引擎在http://www.biotech.ist.unige.it/tab/HyperSearch.html.
OWL混合蛋白质序列数据库(Composite protein sequences databases)是一非重复蛋白质序列数据库,其数据来源包括(截止到1998年6月以前的统计):(1) 含有69 110个分子25 083 142个残基的第35版Swiss-Prot;(2) NBRF的含有393个分子235 554个残基的第55版PIR1,45 067个分子12 796 251个残基的第55版PIR2,357个分子69 696个残基的第55版PIR3,164个分子27 699个残基的第55版PIR4;(3) 含有134 190个分子41 324 437个残基的第105.0版GenBank;(4) 含有1 233个分子236 843个残基的第23.0版NRL_3D,每项条目都可以在BNL的X线晶体结构数据库中查到,其代码为NRL_开头再加上4个字符的PDB代码. 全部入库序列数已达到25 0514个分子79 773 622个残基. 它的WWW地址为http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owlcontents.html.
欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)的TREMBL是对Swiss-Prot蛋白质序列数据库的增补,含有EMBL核酸序列数据库中尚未出现于Swiss-Prot的所有编码区(CDS)的翻译序列,可以看作是Swiss-Prot 的前言部分,今后都可能升级到标准Swiss-Prot 中,故而全分配有Swiss-Prot 访问代码. 目前的第3版TREMBL源于第50版EMBL核酸序列数据库,有126 995条序列34 178 645个氨基酸残基. 它分成两个部分:SP-TREMBL(104 865)是肯定要转入Swiss-Prot 的,包含fun.dat (真菌)、hum.dat (人)、inv.dat (无脊椎动物)、mam.dat (其他哺乳动物)、mhc.dat(MHC蛋白)、org.dat (细胞器)、phg.dat (噬菌体)、pln.dat (植物)、pro.dat (原核生物)、rod.dat (啮齿动物)、vrl.dat (病毒)、vrt.dat (其他脊椎动物)等文件,已经可以在EBI的FASTA服务器上搜索,不久也将能在BLITZ服务器上搜索;REM?TREMBL则是不准备收入Swiss-Prot 的其他数据. TREMBL站点位于
http://www.ebi.ac.uk/srs/srsc/和ftp://ftp.ebi.ac.uk/pub/databases/trembl/.
与生物催化和生物降解相关的数据库站点有:UM-BBD ,即Minnesota大学生物催化和生物降解数据库(University of minnesota biocatalysis/biodegradation database),提供关于微生物酶与代谢通路的信息,位于http://dragon.labmed.umn.edu/~lynda/index.html;EcoCyc,大肠杆菌基因和代谢百科全书(Encyclopedia of ?Escherichia coli? Genes and Metabolism),是一个汇集了所有已知的关于大肠杆菌基因和中间代谢的数据的大型知识库,它位于http://www.ai.sri.com/ecocyc/ecocyc.html;GenoBase Selkov EMP,是GenoBase数据库通道(GenoBase Database Gateway)中一个经过索引的、关于酶与代谢通路(Enzymes and Metabolic Pathways)的数据库,处于http://specter.dcrt.nih.gov:8004/Pathway/pathway_toc_by_name.html;KEGG,日本的基因和基因组京都百科全书(Kyoto Encyclopedia of Genes and Genomes),内容包括代谢通路图谱、分子编目表、基因编目表、基因组图谱等数据,它被放置于http://www.genome.ad.jp/kegg/kegg1.html;SoyBase,是植物基因组计划(Plant genome program)中的一部分 花生计划(Soybean roject)研究数据的集合,可以在http://probe.nal.usda.gov: 8000/plant/aboutsoybase.html看到详细内容;Swiss-Prot,是带有注释的、具有最小冗余的、与其他数据库的整合度很高的蛋白质序列数据库,在http://www.expasy.ch/sprot/sprottop.html;以及WIT (What is there),是一个基于最近的关于细菌全基因组序列的足够了解、在WWW上设计实现的交互式代谢重构模型,它位于http://www.cme.msu.edu/WIT/.
最新的整合型鼠基因组的遗传图谱和物理图谱数据库(Genetic and physical maps of mouse genome data)第14版已经被放在了http://www.genome.wi.mit.edu/cgi-bin/mouse/ index. 位于右侧的鼠遗传图谱包括了定位于Ob x Cast F2杂交系的6331种简单序列长度多态性(Simple sequence length polymorphism, SSLP),平均分辨率1.1 cM. 位于左侧的Copeland/Jenkins图谱包括了定位于Spretus回交系的2 342个分子标记,将近多一半的是SSLP,另一半的是RFLP, 既可以分子标记的名称,也可以分子标记的位置/多态性进行检索. 鼠STS物理图谱包含了来源于平均插入片段长度约为820 kb的酵母人工染色体(YAC)克隆文库的超过6 000种的STS,可分别以分子标记的名称、YAC的位置或YAC的名称进行检索.
位于http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/的基因组导航者(Genome navigator)是提供到达含有关于人类基因组、鼠基因组和酵母基因组等的物理图谱和遗传图谱信息的主要数据库的视化的交互式通道. 它使用基于Java小控件(applet)的通用性程序DerBrowser来显示和导引这些生物的多种不同类型的基因组图谱. 除了常规功能以外,它的一个特别之处就是还能让用户查询外部的相关数据库中存在的任一图谱,目前的数据来源已经包括:麻省理工学院(Massachusetts Institute of Technology, MIT)基因组研究中心的Whitehead生物医学研究所(Whitehead Institute for Biomedical Research, Whitehead/MIT),约翰·霍普金斯大学医学院(Johns Hopkins University School of Medicine)的基因组数据库(Genome database, GDB),Jean Dausset基金会(Fondation Jean Dausset)的人类基因组多态性研究中心(Centre d'Etudes du Polymorphisme Humain, CEPH)和Genethon研究所的infoclone,人类基因连锁研究合作中心(Cooperative Human Linkage Center, CHLC),美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)的人类转录本图谱(Human transcript map, HTM),以及其他一些专门收录人类染色体信息的数据库;欧洲合作种间鼠回交(European collaborative interspecific mouse Backcross, EUCIB)计划的鼠回交数据库(Mouse Backcross Database, MBx),斯坦福大学医学院(Stanford University School of Medicine)的酵母基因组数据库(Saccharomyces Genome Database, SGD),Proteome公司的酵母蛋白质数据库(Yeast Protein Database, YPD),Max-Planck研究所的慕尼黑蛋白质序列信息中心(Munich Information Centre for Protein Sequences, MIPS),全自动分析生物序列的GeneQuiz服务器等.
能提供啤酒酵母(Saccharomyces cerevisiae)蛋白质三维结构信息的酵母基因组数据库SGD已经可以在http://genome-www.stanford.edu/Sacch3D/找到. 其特性包括:(1)以基因名称、开放读码框架(ORF)名称、染色体编号、文字等形式检索酵母基因组中任一蛋白质的潜在的结构信息;(2)使用RasMol或基于Java的显示程序交互地观察结构信息;(3)浏览全部已经收录于PDB结构数据库中的啤酒酵母蛋白质;(4)以到达NCBI的MMDB,SCOP,Swiss-Prot等面向结构的其他数据库的链接. 总体上看,已知的结构信息还是相当稀少的,目前在酵母基因组中只有12%的蛋白质与已知结构的蛋白质之间呈现显著的序列相似性.但随着更多的新的蛋白质结构被测定和检测结构相似性技术的改进,这个数字必将增长.
IUBio档案是一个生物数据和软件的档案库,囊括了各种各样的大众化的浏览、检索和传输软件、分子数据、生物学新闻和文件,其互联网地址是iubio.bio.indiana.edu (magpie 129.79.225.200). 分子生物学是这里的焦点,它也同时是果蝇研究数据的一个大本营. 这里维护着可在所有计算机上运行的一些对于生物学挺重要的软件:公共软件使用的分类包括了生物学、化学、科学、应用程序等;而分子生物学部分使用的分类包括了对齐、密码子、自动测序、浏览、一致序列、进化、模式、引物、限制酶、RNA折叠、检索、IBM-PC,Mac,M$win, Unix,Vax等;检索服务包括了GenBank核酸数据库、Swiss-Prot和PIR蛋白质数据库、Bionet新闻组、序列检索系统SRS和SRS-FASTA. 它的专门的果蝇基因组数据库FlyBase位于http://flybase.bio.indiana.edu/ (firefly 129.79.225.202).
--------------------------------------------------------------------------------
3 生物计算
就目前的数学和计算机科学的能力而言,对数据容量达到上十亿字节的数据库进行生物计算仍然是一项很艰巨的任务. 虽然最简单的序列比较可以被简化成字符串匹配的算法,以及将模式识别和神经网络等先进算法也运用其中,但是扩展的和多重的序列比较还是处于试验摸索中. 理论上有希望的、通过量子化学算法预测蛋白质的空间折叠的方法靠现有的计算能力尚无法成为现实, 因为这些都需要数学与纯计算机效能上的新突破.
大分子设计和模建算法让曾经致力于分子力学和分子模型构建的应用数学家、物理学家、化学家和生物学家走到了一起. 现在的重点和挑战在于如何获得高增益、高效率、高可信度的蛋白质、核酸和多聚体的模拟算法. 分子力学的高级时间步长法(advanced time-stepping)、静电学、经典量子力学、结构确定(structure determination)、自由能和整体集群计算(ensemble calculations)等,都是可能的突破点.
分子图形和模型学是生物信息学和药物设计的重要部分. 当基因组学的成就被应用于合理目标鉴别时,蛋白质结构相似性和结构预测、确定蛋白质-蛋白质相互作用、识别类似的和同源的蛋白质折叠等方法都会显著地影响最后的结果. 自动同源模建和结构-功能预测也需要更多的努力,并利用趋于成熟的神经网络方法来实现.
先是可在本地的个人机或工作站上运行的生物计算软件和程序,下一部分侧重于通过互联网络的在线计算.
(1) 日常数据维护. 为生命科学研究人员实现全方位计算能力的软件工具Prophet 5.0,提供适合于数据管理和视化、包括从简单描述性的统计处理到多元方差分析(Multi-factor ANOVA),logistic回归和非线性模型分析等多种统计分析. 它配备了多序列对齐、翻译、限制酶和蛋白水解酶酶切分析、PCR引物设计、BLAST检索、远程数据库检索等生物序列分析工具. 全功能的Prophet 5.0程序可以从http://www-prophet.bbn.com/下载,可免费使用60 d. 其支持和即将支持的Unix平台包括SUN/Solaris 2.4,DEC Alpha/Digital Unix和Silicon Graphics/Irix 6.2等. 这个综合性的数据分析软件包以快速易用为特点:会用鼠标就会用Prophet.
由http://www.unizh.ch/vetvir/plugin.html可下载一些能加快实验室日常工作、用于苹果Mac机或Windows系统的浏览器(Netscape 2.x和Internet Explorer 2.x)的免费插件(plugin)程序,安装后再连接到http://www.unizh.ch/vetvir/programs.html. 其功能包括:酶切预览(根据用户使用的限制性酶和DNA的核苷酸序列在虚拟的琼脂糖凝胶上电泳,用户可以在到紫外灯箱拍照前知道凝胶上出现条带的理论位置);稀释计算(任何浓度的溶液稀释配比计算);接头设计(得到一个用于插入序列连接的、无自连末端的接头序列)等.
质粒处理器(Plasmid processor)是专门绘制科研与教育用质粒图谱的简单程序. 可以输入线形或圆形质粒,任意定义限制位点、基因位点和多克隆位点,任意插入或缺失部分片段.输出的质粒图谱可复制到剪贴板上,也可以存盘以便后用,或通过程序内置的打印模块打印. 压缩的程序包plasp102.zip(约239 kB)可以从http://www.uku.fi/~kiviraum/plasmid/plasmid.html下载.
(2) 序列对齐. 基于“近似字符串匹配(Approximate string matching)”算法的Cleanup 1.8能够确定从核苷酸序列数据库中指定的任何一对序列间的整体同源性,并自动从冗余数据库中生成一组纯化的无冗余的核苷酸序列集萃. 冗余问题一向是序列组间比较的关键概念,无冗余序列无疑对进行统计学分析和加快广泛性检索核苷酸序列数据库的速度非常有益. 所有公开的数据库都会存有同一序列或近似于相同序列的多个不同条目,基于这种偏倚数据的统计学分析往往会有很高的将不显著视为显著的危险性. 为了实现无偏倚的统计学分析和进行更有效的数据库检索,必须使用经过纯化的无冗余序列数据. 然而实际操作中对生物序列数据冗余性的定义难免含混、不易确切,Cleanup就使用了一个基于序列相似性程度的定量指标来描述冗余性:一旦用户给出一个阈值,那么显示出一定的相似性而且与数据库中的另一较长序列间存在重叠的序列就被认为是冗余序列. 从互联网上下载此程序的地址是ftp://area.ba.cnr.it/pub/embnet/software/Cleanup/.
大规模序列比较软件包(Large Scale Sequence Comparison Package) LASSAP (位于http://www-rocq.inria.fr/genome/)是一个跨越多种Unix平台(SGI/Irix,SUN/Solaris,IBM/AIX,DEC/Digital Unix等)的新颖而全面的序列比较软件包. 它使用了目前所有主要的序列比较算法:BLAST,FASTA,Smith-Waterman动态变程、Needleman/Wunsch法、K-best对齐法、字符串匹配(主要针对冗余问题)、模式匹配算法(譬如搜索ProSite特征模式)等. LASSAP中的所有算法都是基于成对比较、且不同算法间的优势能共享以外,还具备:1) 数据库内或库间比较(数据库既可以是来源于一个大数据库的一套序