最近,中国科学院北京基因组研究所基因组科学与信息重点实验室“百人计划”章张研究员,带领其团队成功开发出“编码蛋白质DNA序列并行比对工具—ParaAT(Parallel Alignment and back-Translation)”。该研究成果发表在《生物医药与生物物理研究通讯》(Biochemical and Biophysical Research Communications,BBRC)期刊上。
同源序列比对是生物信息学最普遍使用的分析方法之一,其中,编码蛋白质DNA序列比对最为常见,对比较基因组学、分子进化学、系统发育等领域具有重要的基础意义。为获取相应的比对结果,通常采用的方法是将蛋白序列的比对结果“回译”(back-translate)成DNA比对序列,这样的比对结果比直接进行DNA序列比对更可靠、准确。为此,科学家提出了多个不同的工具,采用的策略都是先进行蛋白质序列比对,然后将比对结果回译成DNA比对。然而,这些工具每次只能处理一组同源数据,无法实现多组同源序列的对比工作。
鉴于传统工具所产生的弊端,基因组所科研人员开发了ParaAT,成功解决了此项科研难题。ParaAT可实现多组同源编码蛋白质DNA序列的并行比对,不仅解决了大规模、多组同源序列的比对工作,同时也大大降低了运行时间,获得了较好的并行加速比(speedup),适合海量数据的分析工作。
ParaAT可在不同操作系统下运行,支持多种不同的输出格式,方便后续相关的生物信息学分析(如用于检测自然选择压力的KaKs_Calculator)。(生物谷Bioon.com)
doi: doi: 10.1016/j.bbrc.2012.02.101
PMC:
PMID:
A parallel tool for constructing multiple protein-coding DNA alignments
Zhang Zhanga, Jingfa Xiaoa, Jiayan Wua, Haiyan Zhangb, Guiming Liua, Xumin Wanga, Lin Dais
Constructing multiple homologous alignments for protein-coding DNA sequences is crucial for a variety of bioinformatic analyses but remains computationally challenging. With the growing amount of sequence data available and the ongoing efforts largely dependent on protein-coding DNA alignments, there is an increasing demand for a tool that can process a large number of homologous groups and generate multiple protein-coding DNA alignments. Here we present a parallel tool – ParaAT that is capable of parallelly constructing multiple protein-coding DNA alignments for a large number of homologs. As testified on empirical datasets, ParaAT is well suited for large-scale data analysis in the high-throughput era, providing good scalability and exhibiting high parallel efficiency for computationally demanding tasks. ParaAT is freely available for academic use only at http://cbb.big.ac.cn/software