1995年Velculescu等提出了基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术,能同时对上千个转录物进行研究。
1. SAGE的原理和实验路线。
1.1 SAGE的原理
SAGE的主要依据有两个。第一,一个9~10碱基的短核苷酸序列标签包含有足够的信息,能够唯一确认一种转录物。例如,一个9碱基顺序能够分辨262144个不同的转录物(49),而人类基因组估计仅能编码80000种转录物,所以理论上每一个9碱基标签能够代表一种转录物的特征序列。第二,如果能将9碱基的标签集中于一个克隆中进行测序,并将得到的短序列核苷酸顺序以连续的数据形式输入计算机中进行处理,就能对数以千计的mRNA转录物进行分析。
1.2 SAGE的实验路线。
如图1所示:(1) 以biotinylated oligo(dT)为引物反转录合成cDNA,以一种限制性内切酶(锚定酶 Anchoring Enzyme, AE)酶切。锚定酶要求至少在每一种转录物上有一个酶切位点,一般4碱基限制性内切酶能达到这种要求,因为大多数mRNA要长于256碱基(44)。通过链霉抗生物素蛋白珠收集cDNA3′端部分。对每一个mRNA只收集其polyA尾与最近的酶切位点之间的片段。(2) 将cDNA等分为A和B两部分,分别连接接头A或接头B。每一种接头都含有标签酶(Tagging Enzyme TE)酶切位点序列(标签酶是一种Ⅱ类限制酶,它能在距识别位点约20碱基的位置切割DNA双链)。接头的结构为引物A/B序列+标签酶识别位点+锚定酶识别位点。(3) 用标签酶酶切产生连有接头的短cDNA片段(约9~10碱基),混合并连接两个cDNA池的短cDNA片段,构成双标签后,以引物A和B扩增。(4) 用锚定酶切割扩增产物,抽提双标签(Ditga)片段并克隆、测序。一般每一个克隆最少有10个标签序列,克隆的标签数处于10~50之间。(5) 对标签数据进行处理。在所测序列中的每个标签间以锚定酶序列间隔,如图1中锚定酶采用Nia Ⅲ限制性内切酶,则以CATG/GTAC序列确定标签的起始位置和方向。
图1 基因表达系列分析(SAGE)示意
锚定酶(AE)和标签酶(TE)是NiaⅢ、FokI
X和O分别表示不同标签的核苷酸顺序
由于双标签体的长度基本相同,不会导致扩增的偏态性,同时数量和种类极大的转录物使同一种标签连接成双标签体的可能性极小,这保证了克隆中的每一个标签代表一种转录物在当前细胞状态下的一个单位的转录产物,因此通过计算机软件的分析能够得到上千种基因表达产物的标签序列以及丰裕度。
虽然SAGE技术能够尽可能全面地收集生物组织的基因表达信息,但也不能完全保证涵盖所有的低丰度的mRNA。另外标签体的连接可能因接头的干扰造成克隆所包含的标签体过少和克隆序列末端不能高效地连入载体。Powell利用磁性生物素珠特异吸附引物,避免了接头的干扰(Powell 1998)。
2. SAGE的优点和应用
SAGE是一项快捷、有效的基因表达研究技术,任何具备PCR和手动测序器具的实验室都能使用这项技术,结合自动测序技术能够在3个小时内完成1000个转录物的分析。另外使用不同的锚定酶(识别5~20碱基的Ⅱ类核酸内切酶),使这项技术更具灵活性。
首先SAGE可应用于人类基因组研究。1995年 Velculescu 等选择Bsm F I和Nia Ⅲ分别作为标签酶和锚定酶,使用计算机对9碱基标签数据进行分析并对GenBank检索。在分析的1000个标签中,95%以上的标签能够代表唯一的转录物。转录水平依标签出现频率分为4类:① 超过三次 共380个,占45.2%;② 出现三次 共45个,占5.4%;③ 出现两次 共351个,占7.6%;④ 仅出现过一次 共840个,占41.8%。所以SAGE能够快速、全范围提取生物体基因表达信息,对已知基因进行量化分析。SAGE也能应用于寻找新基因。虽然SAGE的标签仅包括9个碱基,但加上锚定酶的位点序列(4个碱基)共可确认13碱基序列。如果一个标签检索已知序列时没有同源序列,13碱基片段就可作为探针筛选cDNA文库得到cDNA克隆。
其次,SAGE可用于定量比较不同状态下的组织细胞的特异基因表达。Stephen L等(1997)利用SAGE技术比较小鼠胚囊纤维细胞基因表达。小鼠胚囊纤维细胞能产生对温度敏感的P53肿瘤抑制蛋白,就可通过SAGE分析,比较两种不同温度下基因表达的差异。从约15 000个分析的基因中,发现有14个基因的表达依赖于P53蛋白,有3个基因的表达与P53蛋白的失活显著相关。Zhang等(1997)比较正常细胞和肿瘤细胞基因表达的300000个转录物发现:在分析的4500种转录物中,至少有500种在两种细胞组织中的表达有显著差异。
第三,由于SAGE能够同时最大限度的收集一种基因组的基因表达信息,转录物的分析数据可用来构建染色体表达图谱(Chromosomal expression map)。Victor等分析了酵母基因组的基因表达,从60633个转录物中发现了4655个基因(表达水平分布在0.3~2.0/细胞),其中1981个基因已被确认了功能,2684个还未被报道过。利用基因的表达信息与基因组图谱融合绘制的染色体表达图谱,使基因表达与物理结构连系起来,更利于基因表达模式的研究。(Velculescu,1997)
SAGE是基因表达定性和定量研究的一种有效工具,非常适合于比较不同发育状态或疾病状态的生物基因表达。另外SAGE能够接近完整地获得基因组表达信息,能够直接读出任何一种类型细胞或组织的基因表达信息。SAGE技术的应用将大大加快基因组研究的进展,但必须和其它技术相互融合、互为补充,才能最大可能地进行基因组基因表达的全面研究。
作者单位:华南农业大学遗传工程室,广州 510642
参考文献
1. Adams MD et al. Science, 1991,251:1651
2. Powell J. Nucleic Acids Res,, 1998,26:3445
3. Lisitsyn N et al. Science, 1995, 259:946
4. Pardee AB et al. Science, 1992, 257:967
5. Velculescu E et al. Science, 1995, 270:484
6. Velculescu E et al. Cell, 1997, 88: 243
7. Zhang L et al. Science, 1997, 276:1268
8. Madden S L et al.Oncogene, 1997, 15:1079