据美国媒体报道,一个研究团队通过全面比较29种哺乳动物的基因组,发现了人类基因组中大量的“暗物质”。他们准确找到了基因组中可以控制基因在何时或何处开启的部分,这些基因图谱是解释成千上万与人类疾病相关的基因变异的重要步骤。相关研究报告发布在10月12日出版的《自然》杂志网络版上。
通过早期对于人类和小鼠基因组的比较研究,科学家可以间接推断出基因调控序列的存在,但只能找到它们中很小的一部分。这些神秘的序列就被称为基因组的“暗物质”。
在过去的5年中,研究人员利用兔子、蝙蝠、大象等29种哺乳动物的基因图谱,找出了跨物种基因组中基本不变的区域。麻省理工学院计算机科学系副教授马诺里斯·克里斯表示,新的图谱揭示了近300万种此前在非编码区未发现的要素,它们完好地保存在所有哺乳动物的基因组中。此外,科学家还揭示出近4000种未曾发现的外显子,即基因中具有编码蛋白质功能的部分;超过1000个RNA(核糖核酸)二级结构新家族,其在基因调控中发挥着不同作用;以及270万个预测的转录因子(控制基因表达的蛋白质)靶标等。
瑞典乌普萨拉大学比较基因组学教授克斯汀·林德布拉德-卓表示,大多数基因变异都与发生在基因组非蛋白编码区的疾病密切相关。在这些区域,通常很难发现具有因果关系的基因突变。新的基因图谱帮助准确定位了那些可能导致疾病的突变,其在数百万年的进化后保存下来,但通常会在人类罹患某种特定疾病时中断。了解这些具有因果联系的突变以及它们可能的功能,能够帮助发现潜在的疾病机制,并揭示出潜在的药物靶标。林德布拉德-卓称,对比众多基因组是令未曾识别的基因区域一览无余的开端,这是非常系统化且公正的途径,将在囊括其他更多基因组的情况下变得更加强大。
克里斯认为,他们可以利用新要素重新对疾病进行研究,重点关注被破坏的保留要素,并尝试分辨它们的功能。利用单个基因组,DNA(脱氧核糖核酸)的语言似乎有些神秘,但当研究透过进化的镜头,这些语言就会获得意义。研究人员除了发现DNA调控在哺乳动物间十分普遍外,还破译了在快速进化下表现特别的蛋白质,其中部分与免疫系统和细胞分裂等相关;另有一些迅速发展的蛋白质结构域,则与骨骼重塑以及视网膜相关。
此次通过基因组的比较,还突出了仅在人类和灵长类动物基因组内快速改变的区域。此前曾发现200种类似的区域,新研究扩展了这一清单,将类似区域扩展至1000个以上,这将为科学家理解人类的进化提供新的起点。(生物谷 Bioon.com)
doi:10.1038/nature10530
PMC:
PMID:
A high-resolution map of human evolutionary constraint using 29 mammals
Kerstin Lindblad-Toh; Manuel Garber; Or Zuk; Michael F. Lin; Brian J. Parker; Stefan Washietl; Pouya Kheradpour; Jason Ernst; Gregory Jordan; Evan Mauceli; Lucas D. Ward; Craig B. Lowe; Alisha K. Holloway; Michele Clamp; Sante Gnerre; Jessica Alföldi; Kathryn Beal; Jean Chang; Hiram Clawson; James Cuff; Federica Di Palma; Stephen Fitzgerald; Paul Flicek; Mitchell Guttman; Melissa J. Hubisz; David B. Jaffe; Irwin Jungreis; W. James Kent; Dennis Kostka; Marcia Lara; Andre L. Martins; Tim M
The comparison of related genomes has emerged as a powerful lens for genome interpretation. Here we report the sequencing and comparative analysis of 29 eutherian genomes. We confirm that at least 5.5% of the human genome has undergone purifying selection, and locate constrained elements covering ~4.2% of the genome. We use evolutionary signatures and comparisons with experimental data sets to suggest candidate functions for ~60% of constrained bases. These elements reveal a small number of new coding exons, candidate stop codon readthrough events and over 10,000 regions of overlapping synonymous constraint within protein-coding exons. We find 220 candidate RNA structural families, and nearly a million elements overlapping potential promoter, enhancer and insulator regions. We report specific amino acid residues that have undergone positive selection, 280,000 non-coding elements exapted from mobile elements and more than 1,000 primate- and human-accelerated elements. Overlap with disease-associated variants indicates that our findings will be relevant for studies of human biology, health and disease.