11月8日,据美国物理学家组织网报道,美国宾夕法尼亚州立大学和埃默里大学的研究人员开发的新银河(Galaxy)系统,能利用“云”实现科学家对于与DNA(脱氧核糖核酸)测序和分析等相关软件工具的“驾驭”,并存储大量科学数据。相关研究进展将发表在《自然·生物技术》杂志上。
生物化学和生物学实验经常会产生如山的数据,如何分析这些数据令科学家十分头疼。Galaxy计算系统是为数据密集的生物医药和基因研究而设的、基于网络的开源平台。其能通过聚集多个具备快速检索功能和海量数据分析功用的工具,简化基因组分析的工程,从而解决科研人员面临的难题。
“云”是强大计算机的基础网络,可以远程使用,无需担心过热、过冷和系统管理。这种系统允许用户无论身处何方,都能转换软件存储的工作量和硬件的基础架构,以配合远程的网络计算机,同时近乎支持无限的计算能力。科研人员无需在自己的电脑上运行Galaxy,或者使用大学的服务器进入Galaxy,却仍能成为“云”的驾驭者。系统综合了现有基因组数据库和简易网络的力量,可令用户搜索远程的资源,整合单独的查询数据,并令结果可视化。同时,其他实验室的科研人员也可以查看Galaxy的工作进程,例如查看对于遗传密码的分析,赋予科学极大的透明性。
研究小组在之前发表的论文里,描述了如何利用Galaxy云服务为9个人分析DNA。基于这个平台的超强计算能力,科研人员能够识别出4个单细胞内含有两种或两种以上的细胞质的区域,即线粒体内的变异,基因组的这个部分会由母亲遗传给孩子。
此外,Galaxy云服务的一大优势就是它的数据存储和计算能力。科研人员表示,新兴技术将产生比现有的下一代DNA测序多100余倍的数据,但目前这些数据的存储已经成了问题,更不必说对其进行分析。而使用网络云服务,研究人员可以选择在安全的地方存储大量数据。
Galaxy的云服务还具有其他优点,例如可让对于计算机了解不多的科学家也能使用不易接触的DNA分析工具,因此不需要在计算机的基础建设方面过多投资,也能保证数据密集、复杂的科学分析得以执行。(生物谷 Bioon.com)
doi:10.1038/nbt.2028
PMC:
PMID:
Harnessing cloud computing with Galaxy Cloud
Enis Afgan,1 Dannon Baker,1 Nate Coraor,2 Hiroki Goto,2 Ian M Paul,3 Kateryna D Makova,2 Anton Nekrutenko2 & James Taylor1
Continuing evolution of DNA sequencing has transformed modern biology. Lower sequencing costs coupled with novel sequencing-based assays have led to rapid adoption of next-generation sequencing across diverse areas of life sciences research. Sequencing has moved out of the genome centers into core facilities and individual laboratories where any investigator can access it for modest and progressively declining cost. Although easy to generate in tremendous quantities, sequence data are still difficult to manage and analyze. Sophisticated informatics techniques and supporting infrastructure are needed to make sense of even conceptually simple sequencing experiments, let alone the more complex analysis techniques being developed. The most pressing challenge facing the sequencing community today is providing the informatics infrastructure and accessible analysis methods needed to make it possible for all investigators to realize the power of high-throughput sequencing to advance their research.