Physorg网8月22日报道,世界三大公共DNA及RNA序列储存库的基因序列信息已经达到了100吉对碱基(100,000,000,000对碱基——基因编码的“字符”。“吉”是量词,是“兆”的1000倍。)
联合数据库的数据交换策略为多种生物信息的全球交流铺平了道路。正是依靠这样的策略,国际核苷序列联合数据库(INSDC http://www.insdc.org,)的三大成员——EMBL银行(核酸序列数据库)(位于英国的Hinxton)、GenBank(位于美国的Bethesda)、以及日本DNA数据银行(位于日本的Mishima)全都达到了上述这一里程碑式的目标。
EMBL的欧洲生物信息研究所副主任Graham Cameron称,“这是核苷序列数据库历史上的一个里程碑。从1982年EMBL数据库开始录入,到今天的能提供至少200,000种不同生物的五千五百万个基因序列,这些数据资源瞄准了分子生物学的需要并满足了它们——特别是在严重缺乏数据资源的时候。”
美国国家生物技术信息中心主任David Lipman补充说:“今天的核苷序列数据库允许研究人员共享完整的基因组、足以组成整个生态系统的基因组、以及与病人相关的基因组。INSDC已经认识到基因序列数据库工程初创者的远见卓识,通过全球共享基因组数据,大家都可以获得所需的信息。”
信息生物和日本DNA数据银行主任Takashi Gojobori说:“INSDC已经建立了交流多种生物信息的基础。当我们进入系统生物学时代,研究人员开始交流各种综合信息,比如数以千计的基因活性测量结果,或是整个进程的计算机模型。三大数据库开创了生物信息交流的平台,这一成就值得我们庆贺。”
20世纪70年代末,当研究人员开始在基因编码的层次上研究各种生物体时。几个小组开始探索开发公共基因序列储存库的可能性。20世纪80年代初,这一研究开发出两个数据库:第一个是EMBL数据库,设在位于德国海德堡的欧洲分子生物实验室(这一数据库现名为EMBL银行,设在位于英国Hinxton的EMBL欧洲生物信息研究所);紧跟其后的是GenBank,最初设在美国洛斯阿拉莫斯国家实验室(LANL),现位于美国马里兰州Bethesda的国家生物技术信息研究中心。这两个数据库的初始数据均来自有远见者的个人收藏。EMBL银行是基于德国科隆大学Kurt Stuber的收藏,而 GenBank来自于洛斯阿拉莫斯国家实验室Walter Goad的搜集。
这两个初始数据库很早便开始了合作,由EMBL数据库的首位雇员Greg Hamm发起了交流互动工作。两个数据库的雇员们自那时起便开始从发表了的期刊论文上搜寻基因序列,并把他们重新输入到数据库中,同时把期刊分类以避免重复劳动。这些雇员也从此开始了描绘从一个数据库到另一个数据库的路线图的枯燥工作,通过这项工作,他们便可以交换信息。到了1987年2月,国际核苷基因序列协会开始正式组建。第三个合作方,日本DNA数据银行,在Mishima的国家基因研究所成立,而与欧洲和美国同伴的合作也随即开始。
从论文中或从软盘中摘录基因序列,再人工输入,并用9轨的磁盘分发给使用者的日子过去了,从那以来发生了很多的变化。但数据库的宗旨——公共领域的所有核苷序列信息能在科学界得以快速地共享——仍是一如既往。