华中农业大学 生命科学院
多年来癌症遗传学研究策略是对单个独立的基因进行研究,然后把把这些单独的研究结果综合起来,形成比较全面的认识。我们对癌症的许多认识是基于这种研究方法。然而,在上世纪九十年代基因组学的兴起促进癌症遗传学形成了一套全新的技术思路。新的研究策略是全面检测肿瘤发生过程中所有的遗传学变化,从整体上研究这些遗传变化进而建立一个最好的发现,诊断和治疗癌症的方法。通过大规模项目建立公共数据库对促进癌症研究有非常关键的作用,除了数据库开发人员使用外,来自肿瘤研究其它领域的研究人员也能以此为起点研究特异的现象。为了建立癌症基因组数据库,几个研究小组独立开始进行这项大规模的工程,DNA测序作为一个共同的技术平台。大规模的DNA测序工程现在已经在发现人新基因,鉴定基因组中癌症诱发的基因突变以及对正常细胞与癌细胞转录物变化进行定性和定量研究中发挥重要作用。癌症基因组项目产生大量数据,这促进了包括DNA微阵列在内的系统研究方法的兴起。总之,从癌症基因组工程中,我们不仅认识到在癌细胞中基因组是怎样变化的,而且可以理解这些变化是如何导致细胞水平的变化最终诱发癌症产生的。
本文主要评价三个癌症基因组项目的早期结果,科学进展以及合作情况。这三个基因组工程是The Cancer Genome Anatomy Project(CGAP), The Human Cancer Genome Project (HCGP)和The Cancer Genome Project (CGP)(参见表一)。
基因组和癌症研究
现在所有基于人序列的数据都直接与人基因组相关。这为统一基因组范围的研究提供一个极好的机会;同时在人基因组这一研究背景下分析所得到的数据也更有价值。现在每个癌症基因组项目都是在人类基因组计划不断提供大量DNA测序数据的背景下进行的。癌症基因组项目提供有关癌症的信息有助于更好的分析,解释和理解基因组。这些致力于建立公数据库的大规模工程将为攻克癌症发挥巨大的作用,而这也是人类基因组计划的目标之一。图一简要的勾画出癌症基因组数据与产生癌症相关信息之间的关系。
癌症基因组可以产生四种类型的数据信息。前两类是转录序列,产生于人cDNA序列的400-600bp表达序列标签(expressed sequence tags,ESTs)和由基因表达连续分析(serial analysis of gene expression,SAGE)得到的短序列标签。第三类信息基因组DNA序列,代表基因单个外显子的全部或一部分,它们已经被筛选以寻找在人肿瘤中发生的序列突变。最后一类是有助于查明肿瘤发生中的断裂点信息,它是由于肿瘤发生过程中大范围的基因组重排所产生的。 癌症基因组解析计划(The Cancer Genome Anatomy Project,CGAP)
目标和基本原理 CGAP的目标就是建立一个基于信息和物理资源的基因组和癌症交叉研究平台。CGAP的策略是建立序列数据库而不是去分析生物学功能,使这些信息容易用于生物学分析。这个项目已经建立了一个在正常细胞与癌细胞表达有很大不同的基因目录,所收集的基因数目在不断增多。
CGAP和HCGP重点都在从各种癌和正常组织cDNA文库中得到ESTs。CGAP ESTs主要是从转录物3′端poly(A)尾引发第一链合成得到,它们使得鉴定来源于同一基因的序列变得很容易。在经过筛选除去任何可能的污染序列之后,这些序列储存在EST数据库(Expressed Sequence Tags Database,dbEST)中。到现在为止,CGAP已经储存了>1,000,000条ESTs。ESTs方法产生cDNA克隆和用于基因标签的序列。这些克隆可以用于获得全长转录产物,建立微阵列鉴定基因表达模式。
随着CGAP项目的进展,人们引进了许多新的高通量基因表达检测技术。CGAP已经广泛应用SAGE方法,这种技术可以对基因表达定量分析。在SAGE方法中序列标签是很短的(通常是14个核苷),许多标签在一个单克隆中是相连的,因而从单一DNA测序反应中可以得到30多个标签。而且,由于这些标签来源于特异性限制性酶切位点邻近的序列,因而这些标签很容易被定位到某特异转录物。
与ESTs相比SAGE有个优点,标签可以来源于一个转录物的多个区段,但在鉴定两个标签是代表相同还是不同基因时也更困难,特别是缺少完整基因序列情况下。当然,人基因组测序完成后,更多的全长转录物被发现,来源于转录物不同片段的基因标签的关系更容易被鉴定。由于其具有对基因表达变化的定量能力,因而CGAP数据鉴定多种肿瘤发生中都过量表达的基因很有用。CGAP与国家生物技术信息中心(National Center for Biotechnology Information,NCBI) 一起建立一个公共的SAGE数据库(SAGEmap)。最近CGAP已经改进了将标签定到特异基因的方法,并且开发了新的分析工具如SAGE Anatomic Viewer9。CGAP的SAGE数据库中大多数序列标签是通过突变或物理刺激引起基因表达变化这种方法获得的。这些数据已经被用于鉴定在乳房、卵巢、脑和胰腺癌过表达的基因和鉴定在肿瘤内皮细胞以及缺氧诱导下特异表达的基因。通过计算机分析鉴定基因的表达变化可以通过定量PCR或原位杂交等方法进一步分析确证。
基因表达数据与癌症基因组整合 CGAP一个重要目标就是将癌症基因组和其表达整合起来。高质量的人类基因组序列,与基于序列的基因表达数据为这种整合提供了一个途径。例如,我们可以借助一些基因组浏览器可以在基因组水平上分析CGAP ESTs和SAGE标签。
另一个基因组与基因表达的重要关系需要特别关注。肿瘤细胞遗传学在后基因组时代仍然象在进行基因组测序计划之前一样很重要。对肿瘤细胞染色体断裂点进行定位可以鉴定与疾病发生直接相关的基因组区段。甚至,开发抗癌新药Gleevec漫长探索过程就是建立在最初发现慢性骨髓样白血病普遍发生染色体异位(导致BCR-ABL融合)这一基础上(见文章末Box3)。然而基因组序列与细胞遗传学图还需要进一步实验才能整合起来。CGAP完成了高分辨率BAC克隆荧光原位杂交(FISH)图,这些克隆是用作人基因组计划测序模板。这极大方便了对染色体断裂点鉴定。也就是说,人们可以鉴定细胞遗传学图上的BAC克隆,从已知BAC序列片段中读出DNA序列并分析它们与邻近序列的关系。借助这些知识,染色体断裂点发生所表现的DNA序列改变能很快可以被发现。BAC象"锚"一样,将基因组序列既可以与细胞遗传学图联系起来,又可以与基因联系起来,因而,认识癌症基因组与表达的综合关系就变得非常容易了。CGAP还与Felix Mitelman一起合作建立癌症染色体异常目录网络版,使得研究人员可以自由的利用这些信息,也提供了一个方法可以将这些有价值的数据与基于测序的数据相连。 人癌症基因组计划(The Human Cancer Genome Project,HCGP)
目标和基本原理 HCGP最重要的目标是鉴定人类基因组蛋白质编码区。转录物序列对鉴定人DNA序列中的基因有非常关键的作用,因此,转录物测序是整个人基因组测序的一个基本内容。
EST测序 所有的HCGP数据都是应用开放阅读框(ORF)EST测序方法或ORESTES得到的,这种方法可以对中间的蛋白质编码区测序。通过转录物末端反转录建立的ESTs通常不能包括这些区域。这个方法包括PCR介导的表达基因内部片段测序。因而,ORESTES方法能够捕捉到许多新的低丰度的信息,其中大部分序列与同一时刻表达的其他转录物丰度差异显著。HCGP用最初的100,000 HCGP序列在染色体22鉴定出许多新的转录区域,证实了这个策略的正确可行。在GenBank已经储存了将近800,000条HCGP序列。HCGP数据在产生之后就立即存到GenBank,其中大多数数据可用于分析2001发布的人类基因组草图。
ESTs应用
对CGAP和HCGP计划产生的ESTs,我们需要做的第一步就是将来源于相同基因的片段归类。理论上,可以通过比较转录序列之间的同源性来进行鉴定。然而实际上,由于转录物的可变性(如选择性拼接和多态性),基因家族成员序列相关性,来源于相同转录物标签缺少重叠以及DNA序列质量的不一致性,聚类分析是很复杂的。基因组研究院基因索引(The Institute for Genomic Research Gene Indices), STACK和UniGene是聚类分析建立具有代表性的几个数据库,UniGene使用得最广泛。
然而聚类分析一个更可靠的方法是用人类基因组序列做"向导"。通过这种方法我们可以鉴定嵌合体,否则会导致错误的序列。这种方法还可以对具有很小部分重叠的转录物进行聚类分析,也可以将类似的家族成员鉴别出来。以基因组序列作为"向导"的策略还可以鉴定出转录物由于缺乏内含子与基因组序列之间的不连续性。另外,即使与已知的任何基因都不配,通过将EST定位到基因组外显子/内含子结构图上仍可以将它鉴别出来。基因组聚类分析也可以用于进行转录物的染色体定位。因此,EST聚类物广泛用于鉴定与癌症相关的基因和人类基因组上的转录物。例如,这种策略用于鉴定染色体21基因转录物,这包含B细胞慢性淋巴细胞白血病(B-cell chronic lymphocytic leukaemia ,B-CLL)肿瘤抑制基因位点,CLL抑制基因位点,12p12肿瘤抑制位点和遗传性前列腺癌位点。由于这些原因,HCGP和CGAP将基因组聚类分析用于处理ESTs。
ESTs聚类分析也为基因多样性研究提供机会,其中一些基因与癌症表现型相关。CGAP已经通过多态性分析来鉴别来源于相同基因序列的单核苷酸差异。这个方法的基础就是来源不同个体组织cDNA文库的转录物标签。尽管大多数单核苷多态性代表群体中普通的多态性,然而其中的一些与癌症发生和维持直接相关。
EST数据进行聚类分析还可以用于发现与恶性肿瘤相关的转录物变异。CGAP和HCGP数据已经广泛用于分析已知的所有人类基因变异,这些变异可能是由于外显子选择性剪接,外显子组织特异性剪接或在癌症发生中差异表达的基因选择性剪接。
CGAP信息研究组已经开发了许多方便使用EST数据库的工具,可以在线通过计算机分析发现可能在一些特殊癌症中优先表达的基因。通过这些转录物数据库发现的在单个肿瘤中表达的基因包括乳房癌,前列腺癌,结肠癌和口腔癌基因,还有生殖器官的一些癌特异表达的基因。通过组织限制性表达分析鉴定癌症免疫治疗潜在靶点,这种方法在这个领域是非常有前景的。
癌症基因组计划(The Cancer Genome Project,CGP)
CGP是最近发起的三个测序癌症基因组之一。CGAP和HCGP主要是鉴定癌症转录物,而CGP目标是调查人基因组中所有基因的序列变化,CGP从一个不同的角度研究癌症基因组。如果与表达数据库整合以后,可以从分子水平对癌症有一个更全面的认识。
对疾病发生和发展中出现的突变进行分析使得我们对癌症生物学有更深的认识。尽管已经取得非常大的进步,然而我们对鉴定癌症基因组中发生的所有突变还是认识很少。同时,我们能从癌症突变基因中得到许多非常有价值的信息。如前所述鉴定染色体易位是很容易的;然而,这只是我们所进行的分析中非常普通的变化,如BCR-ABL融合。许多高外显率易变基因已经被克隆,如乳房癌基因BRCA1和BRCA2,而其它低外显率或低频率位点仍不清楚。总共有将近25个体细胞突变基因在文献中报道。然而所有这些基因都是相对容易做的,还有多结构染色体异常癌基因组在分子水平不清楚。在以前的工作中,对这些变化进行还原性分析提供了许多分散的复杂的数据。CGP计划已经开始鉴定那些比较困难的癌突变基因,这些基因没有被定位到图谱上或只是定位到不清楚的大片段上。
人肿瘤中存在多种突变,这带来了麻烦。为了完整描述体细胞遗传学变化,基因组突变鉴定平台技术需要研究基因内微小突变(置换,缺失和插入),以及大的突变如拷贝数的变化(减少和扩增)和重组。
如果肿瘤和相应正常DNA完全测序,每个碱基覆盖至少十次,那么这些遗传学信息都可以得到。尽管这种假设的方法不可行,但我们可能设计出方法分析单一类型突变。借助人类基因组序列和合适的高通量突变扫描鉴定技术,扫描分析肿瘤中所有基因内微小突变是可行的。人基因组草图2001年发表,所有测序在今年完成。对这些序列完成注解还需要两年,并对所有已知的基因进行定位和结构鉴定。利用这些信息,我们能够直接分析所有的基因,并最终得到癌细胞基因组编码序列的情况。
在测序完成之前,到目前为止已经开始对已经确定的>15,000基因进行分析了。为了在合理的时间内完成整个基因组分析,CGP开发一套灵敏快速的突变扫描方法,这种方法是建立在异源双链核酸实验基础上。以目前估计的分析速度,对48种肿瘤和同一个体相应正常组织的30,000个基因进行初步扫描需要四年时间。相应的正常组织可以提供一个重要的参照,肿瘤DNA种系突变也存在于正常组织中。通过对照我们可以排除种系突变,主要考虑体细胞突变。大多数(不是所有的)种系突变是呈多态性的,这种多态性对于基因组高密度SNPs作图有帮助。初步扫描肿瘤的数目受到经济,时间和鉴定肿瘤异变基因所需要的样品数目的限制。
CGP目标就是扫描所有基因的编码区。这可以通过扫描肿瘤样品cDNA来完成;然而基因组DNA提供了更一致的原始材料。而且缺失突变还可以诱导无义链介导的RNA降解,这使得发现突变位点变得很困难,另外选择性拼接也使分析变得更复杂。即使使用每天可以扫描>500,000 bp高通量自动分析仪,我们能扫描的样品也是有限的。CGP所选肿瘤种类是尽可能多样化,以便分析得到最多的癌症基因数目。然而,所选择的肿瘤类型偏向上皮组织源肿瘤,鉴定的基因是与高死亡率相关的突变基因。
起初,CGP策略集中在RASRAF-MEK-ERK-MAP激酶途径,因为10-20%人肿瘤发生RAS基因突变。研究发现位于染色体7q的BRAF突变参与恶性黑素瘤和结肠癌,其它两个RAF成员RAF1和ARAF1在CGP检测的样品中突变低于<1%。尽管RAF1在癌中突变频率不高,但随着过去几年来小分子抑制剂研究进展,它可能成为一个有意义的潜在靶点。由于RAF蛋白的相似性,我们可以用RAF1抑制剂BRAF突变病人,也可以开发特异性抑制剂治疗最普遍的BRAF突变。当然,CGP所选择的这些早期基因都可能参与恶性肿瘤发生,例如参与信号转导途径发生突变的基因或与癌发生相关的基因家族如蛋白激酶家族。然而这是所发现早期突变基因,表明通过基因组搜索可以发现更多这种类型的突变基因。
基因组搜索基因内微小突变方法,可以鉴定出更多通常在肿瘤中发生突变的基因,也可以建立一个随肿瘤发展而变化基因突变模式。流行病学研究估计在一种普通的上皮成年肿瘤发生过程中需要经过5-7个速度限制性阶段。在对24种肿瘤(初步扫描的48个样品中一部分)1,000个基因扫描后发现在一个典型的肿瘤中有比这最低数目多得多的基因发生突变,其中一些是可以遗传的。到目前为止CGP收集的数据表明在24种肿瘤样品中每个都有1,000-50,000碱基替换。在这些突变中10-600个是体细胞编码区非同义的突变。这表明在肿瘤发生过程中需要发生更多速性突变,比先前预测的要多得多。
基因组水平搜索所有种类突变,还可以更深入分析人基因组中肿瘤相关基因数目。对癌相关基因突变的整体扫描可以回答许多问题,如是否仅有少数几个基因是大多数致癌突变的靶点。目前,考虑所有已知的显著起作用的致癌基因和肿瘤抑制基因,人基因组中约1%基因参与癌症发生。最终可能会发现人基因组中5-10%或更多基因参与癌形成。这种系统扫描可以鉴定出致癌主效基因并认识癌发生生物学本质,为治疗,诊断提供新的靶点。
这三个计划一个重要特征就是产生DNA序列数据,无论是直接从基因组得到,还是从转录物得到。由于DNA数据是数字化的,因而它们能够与来自其它实验室数据集中建立数据库。将全世界的信息构建成数据库,我们才能更好的推动癌症研究,发现关键的生物学特征,以用于改进发现,诊断和干预肿瘤发生的手段。
HCGP通过ORESTES产生ESTs具有中心偏爱性分布,这与CGAP测序项目产生的3′ 和 5′ ESTs形成很好的互补。将这两个转录物数据库结合起来在效果上与鸟枪法类似可以覆盖人转录物。由于这两个主要的癌症相关转录物测序公共数据库的互补性,数据已经整合到单一数据库国际癌症表达数据库基因(International Database of Cancer Gene Expression),它可以从CGAP网页上查到。
转录物测序数据库(CGAP和HCGP)与CGP突变鉴定方法的整合将全部实现。转录物测序数据直接用于CGP计划,有助于鉴定人基因组基因结构,这是CGP进行的先决条件。考虑到每个项目提供的数据都是基于基因和序列,将这些数据库整合是可以做的,主要的工作就是开发生物信息工具,可以鉴定基因突变与优势条件下表达模式之间的关系。 发展方向
很显然基因组产生大量数据信息将极大推动癌症研究。然而,如果没有一个协议将这些数据统一起来,它们将不能有效的被应用。而且,开发利用这些数据需要整个科学界集体的智慧。
因此,我们的观点是数据需要广泛传播,与信息学工具集成以便于所有的科学家能广泛利用。到目前为止,CGAP与HCGP数据已经通过CGAP网页组合起来,方便来自各个科学领域的研究人员查询。到现在为止,CGP重点是优化高通量获得数据的方法,而不是与CGAP和HCGP数据整合,以集成的模式对外公布数据。然而这个计划也需要通过一个集成的方便的平台将数据对外发布。在现阶段还不清楚采用什么形式发布数据,但随着CGP数据增多,它们将与CGAP与HCGP数据以集成模式发布,采用统一的人基因组序列标准。那时,想得到CGP数据的研究人员能直接与项目负责人联系。
与其他项目得到的数据整合,我们的目标是建立一个完整肿瘤分子数据库。现在遇到的最大困难就是将组织和肿瘤样品定义的有关信息,已知的肿瘤分子水平变化的信息(目前通常不在数据库而是单独出版)以及详细临床信息包括临床试验设计,病人反应和结果的信息进行整合。以这种方式整合对数据进行整合将使基础和临床研究交融,以便于整个肿瘤研究界能够协同一致改善病人健康。