生物谷报道:一项新的研究指出,基于计算机的统计方法正在帮助研究人员用物种的基因片断来建立地球上所有物种的家族树。虽然DNA序列的数据正在加速积累,但是这些序列通常只是一些片段,这给构造“生命之树”的工作带来不少的问题。较多的脊椎动物和有叶植物的基因信息现已存在于数据库中,但是不常见的物种,比如细菌和真菌的序列在现有的数据库中存在的不多。现在,Amy Driskell和同事提出了一个有意思的计算方法,将来自不同数据库的大量不完整的数据结合起来。虽然有些物种的遗传数据的不完全性高达92%,研究人员能从中得到有用的信息,他们用这些信息证实了基于更完整序列所得到的进化关系。最新一期Science报道这方面的进展,同时同期期还刊登了一篇研究评述总结了生物研究这个方面的进展。
生物谷专家认为,如何处理海量的基因组数据库,将来还有蛋白质组数据库,一直是科学家苦恼的科学问题,这一基于计算机的统计方法有望将这些数据进行总结归纳,得出更有意义的结论。但是我们同时要看到,当前任何一种模型也不能完全解释如此复杂的数据模型,将来会有更多的,更完善的计算机模型出现。
We assess the phylogenetic potential of 300,000 protein sequences sampled from Swiss-Prot and GenBank. Although only a small subset of these data was potentially phylogenetically informative, this subset retained a substantial fraction of the original taxonomic diversity. Sampling biases in the databases necessitate building phylogenetic data sets that have large numbers of missing entries. However, an analysis of two "supermatrices" suggests that even data sets with as much as 92% missing data can provide insights into broad sections of the tree of life.
全文下载
点击浏览该文件
相关文章
Genomic Databases and the Tree of Life
Keith A. Crandall and Jennifer E. Buhay
Science 12 November 2004: 1144-1145
[Summary] [Full Text] [PDF]