从人类基因组的30亿个碱基对中寻找进化出人类的基因并不是一件容易的事。现在,一组研究人员寻找到了由非编码DNA产生的3个基因,也许正是它们帮助人类进化成了独特的种群。
人类和黑猩猩在遗传学上非常相似,但是我们不难分辨两者之间的许多不同。据《基因组研究》杂志网络版披露,科学家最近获得一项至关重要的基因发现,这些基因和从其它灵长类动物中分支后的人类密切相关,这为理解是什么使我们成为了独一无二的人类提供了新的可能。
分子进化领域的普遍看法是,新基因只能从先前已有的基因通过复制或重组演变而来。绝大多数基因都源远流长、历史悠久,可以上溯到人类祖先还生活在树上的时期,甚至可以追溯到许久以前的微生物。从微生物的几千个基因增加到人类的几万个基因,主要是通过基因组复制和基因复制事件实现的,复制创造出另外一组基因,然后自由发展出新序列和新功能。
大多数复制发生在人类诞生之前,只有少数发生在人类世系中。从一个曾经并不活跃的基因产生一个功能性蛋白编码基因被认为是极度不可能之事。然而,最新研究表明,这一现象事实上真的存在。
研究人员发现,在果蝇、酵母和灵长类动物身上,存在着由非编码DNA产生的基因,但直到目前为止,还没有发现过人类独有的此类基因。此项发现提出了一个令人着迷的问题——即这些基因是如何造就我们和其它灵长类动物之间的差异的。
在此项研究中,爱尔兰都柏林圣三一学院基因研究所的戴维·瑙勒斯及奥亦菲·麦克里赛特承担了在人类基因组中找到黑猩猩基因组中所没有的蛋白编码基因的艰巨任务。他们通过严格的筛查和系统排除一些错误结果,最终其候选基因名单上只剩下了3个基因。不过,他们面临的挑战则是需要证明人类DNA中的这些基因是真正具有活性的。
研究人员从其他研究中收集到了这3个基因可积极转录和转译成蛋白质的证据,但同时他们也需证明相应的DNA序列在其它的灵长类动物身上并不活跃。他们发现,某些猿和猴种群中的DNA序列包含有可能会使蛋白编码基因失效的差异,这表明这些基因在古老的灵长类动物身上是失活的。
研究人员还注意到,由于采取了严格的过滤设置,只有大约20%的人类基因适合于进行分析。因此,他们估计在人类进化过程中由非编码DNA产生的人类特定基因大约有18个。与基因总数2.4万相比,这个数目几乎微不足道,但却是至关重要的。
人类新蛋白编码基因的发现是一项重大发现,但又提出了一个更加重大的问题:由这些基因编码的蛋白是干什么用的?它们不同于其他任何人类基因,可能会带来深刻的影响。虽然这些基因的特点和功能目前尚不明了,但研究人员大胆地推测,正是这些人类特有基因造就了人类特有的性状。(生物谷Bioon.com)
生物谷推荐原始出处:
Genome Research September 2, 2009, doi: 10.1101/gr.095026.109
Recent de novo origin of human protein-coding genes
David G. Knowles and Aoife McLysaght,1
Smurfit Institute of Genetics, University of Dublin, Trinity College, Dublin, Ireland
The origin of new genes is extremely important to evolutionary innovation. Most new genes arise from existing genes through duplication or recombination. The origin of new genes from noncoding DNA is extremely rare, and very few eukaryotic examples are known. We present evidence for the de novo origin of at least three human protein-coding genes since the divergence with chimp. Each of these genes has no protein-coding homologs in any other genome, but is supported by evidence from expression and, importantly, proteomics data. The absence of these genes in chimp and macaque cannot be explained by sequencing gaps or annotation error. High-quality sequence data indicate that these loci are noncoding DNA in other primates. Furthermore, chimp, gorilla, gibbon, and macaque share the same disabling sequence difference, supporting the inference that the ancestral sequence was noncoding over the alternative possibility of parallel gene inactivation in multiple primate lineages. The genes are not well characterized, but interestingly, one of them was first identified as an up-regulated gene in chronic lymphocytic leukemia. This is the first evidence for entirely novel human-specific protein-coding genes originating from ancestrally noncoding sequences. We estimate that 0.075% of human genes may have originated through this mechanism leading to a total expectation of 18 such cases in a genome of 24,000 protein-coding genes.