是先有鸡还是先有鸡蛋?这个问题相当恼人,恐怕很难说清楚。现在,研究人员回答了与这个问题一样恼人的问题:人类基因组中的成千上万的长重复DNA片段中,那个是第一个产生的?那些被复制了?
这个答案发表在10月7日的《自然·遗传学》杂志上。该研究给出了人类基因组中DNA重复片段复制的第一个进化证据,这种复制部分归因于疾病和近期的遗传变异。
这项研究工作标志着人类向着更好地了解“什么样的基因组变化造就现代人类”、“什么时候这些复制片断出现以及这样的代价”前进了重要一步。
进行这项研究的研究组由来自美国华盛顿大学医学院的生物学家Evan Eicher和加州大学圣地亚哥分校的计算机专家Pavel Pevzner所领导。
这项新研究首次使我们对人类基因组中一些重要的复制区域的进化起源有了个整体的了解。研究人员“追捕”到了超过三分之二的这些长DNA复制片段的祖先起源。在《自然·遗传学》上发表的这片文章主要公布了两大发现。
首先,研究人员暗示出,人类基因组的特定区域在我们近期的基因组历史的不同时间立发生了复制活性的提升。这与大多数的基因组复制模型形成鲜明对比。
第二,研究人员证实了在一根相对较小的重复亚单元周围的新的复制构建中心的一部份与较短的DNA片段一起形成部分复制片段。这些核心是人类基因/转录革新的焦点。
他们发现,人类基因组中不是所有的重复片段的重要性并不均等。一些核心复制子似乎与人类基因组中的近期的遗传变异有关。研究人员给出了14个这样的复制子。
重复序列的分类:
真核生物细胞基因组中重复出现的核苷酸序列。大体可分成3大类。高度重复序列:一个基因组中有几百甚至几百万份拷贝的高度重复序列中,既有重复几百万份的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复,它又称为卫星DNA,散在分布于整个基因组,它的重复序列单位长度一般小于10bp,重复次数在人群中是高度变异的,成串成簇排列。这类序列是不能转录的,一般多数分布在染色体的着丝粒区域和端粒区域。由于高度重复序列在个体间呈高度变异性,因而表现出人类基因组的遗传多态性。
中度重复序列,一般指10份到几百份拷贝的DNA序列,通常是非编码序列。它包括一些蛋白质基因和RNA基因,如免疫球蛋白基因以及rRNA基因和tRNA基因。中度重复序列可分为两种类型:一种是短分散重复序列,长度300~500bp,例如Alu家族长达300bp,在一个基因组中重复30~50万次,其作用可能与转录调节、DNA复制启动和hnRNA的加工有关;另一种是长分散重复序列,长度5.0~7.0kb,例如 Kpn I家族,长度6.5kb,拷贝数3000~4800个,散在分布于人体基因组,其功能不详。单一序列:在整个基因组中只出现一次或少数几次的序列,在小鼠中约占基因组的70%。如珠蛋白基因、卵清蛋白基因、丝心蛋白基因等。实验证明,所有真核生物染色体可能均含重复序列而原核生物一般只含单一序列。高度和中度重复序列的含量随真核生物物种的不同而变化。
原始出处:
Nature Genetics
Published online: 7 October 2007 | doi:10.1038/ng.2007.9
Ancestral reconstruction of segmental duplications reveals punctuated cores of human genome evolution
Zhaoshi Jiang1, Haixu Tang2, Mario Ventura3, Maria Francesca Cardone3, Tomas Marques-Bonet1, Xinwei She1, Pavel A Pevzner4 & Evan E Eichler1
Human segmental duplications are hotspots for nonallelic homologous recombination leading to genomic disorders, copy-number polymorphisms and gene and transcript innovations. The complex structure and history of these regions have precluded a global evolutionary analysis. Combining a modified A-Bruijn graph algorithm with comparative genome sequence data, we identify the origin of 4,692 ancestral duplication loci and use these to cluster 437 complex duplication blocks into 24 distinct groups. The sequence-divergence data between ancestral-derivative pairs and a comparison with the chimpanzee and macaque genome support a 'punctuated' model of evolution. Our analysis reveals that human segmental duplications are frequently organized around 'core' duplicons, which are enriched for transcripts and, in some cases, encode primate-specific genes undergoing positive selection. We hypothesize that the rapid expansion and fixation of some intrachromosomal segmental duplications during great-ape evolution has been due to the selective advantage conferred by these genes and transcripts embedded within these core duplications.