中科院生化所夏其昌教授领导的课题组所做的蛋白质组学研究是目前在国际生物学界一个热门研究方向,为此我们对夏教授进行了一次专题采访,采访工作得到了夏教授的热心支持,使我们对蛋白质组学有了更深的认识。
为什么蛋白质组学研究会成为后基因组学中最热门的一部分?
大家知道今年基因组研究取得了丰硕的成果,今年三月份的Science和Nature 同时发表了人类基因组草图,人类基因组计划的测序基本上是完成了。测序是一个很基础的工作,这个工作的完成使得我们对信息载体基因组的结构比较清楚了。但是从基因组到性状的表达这个过程中涉及的很多问题很复杂,还很难搞清楚,所以如果你想克隆东西,以为基因信息一样就可以了,其实结果会和预想的相差很大。这里主要是蛋白质组在起作用,从基因到mRNA再到蛋白质, 最后体现生物功能的是蛋白质。所以现在大家认识到研究蛋白质组非常重要,希望通过它来解决一些问题。当然,蛋白质组学研究不能解决所有的问题,或许将来又会提出其他的一些研究内容,但目前来说,这方面工作还是最热的。
蛋白质组学研究技术的发展
现在研究蛋白质组学有很重要的两个技术,一个是双向电泳,一个是质谱。双向电泳是1975年提出的,由三个实验室同时提出,那时在欧洲的医学家和生物学家希望用这种方法来从整体上研究发病的机理。现在看来,双向电泳精度还是蛮高的,你想一个细胞一般有上万种蛋白质,一般的HPLC及毛细管电泳只能分离上百个,而双向电泳一次可分离上千种。不过即使如此,距离分析上万个蛋白质还是相差太多。有些蛋白表达丰度很低,量很小,而有的却很多,这样就使得多的和少的蛋白在同一个电泳上表现很难协调。不过现在比较通用的还是双向电泳,一次可分离出几千个点,比以前一个一个研究好多了,可是仍有很多蛋白没有被检出,而被遗漏了,所以要通过它完全搞清楚整个疾病级联过程还是比较难的。
做蛋白质鉴定较好的方法是质谱。质谱有很多类型,在生物学中主要用两种,一种是moditof,一种是积方诱导(处理量较大)。蛋白质酶解成短肽之后,分离的时候就根据分子量大小来分,每个小肽的分子量知道之后,就可以到数据库去搜索。如果这个方法得不到结果,我们就用电喷雾质谱,这个方法不但能知道肽段的分子量,而且把每个肽段的序列也测定出来了,这样可靠性更大。所以蛋白质检测的发展与这两种90年代发展起来的技术有关,过去的质谱只能做小分子,现在可以做到分子量几万、几十万的,一般我们做的有3000分子量左右。做蛋白质组的文章很多都是在electrophorisis杂志上发表。其实质谱国内做的很多,由于质谱仪器较贵,所以这些工作一般在质谱中心做。但是质谱中心由于没有自己的研究课题,一般只是提供测试服务,因此做的不深、不透。我们实验室在两三年前由于需要买了一台,又快又好,我们的工作成果都是在国外发表的。
我们现在用的质谱在国内已经算比较好的了,但新的质谱非常多,像照相机一样,每年都有新的型号出来,我们的质谱买了三年,这个型号已经不出了。所以质谱发展的非常快。现在有红外的,用维生素标定的方法, 还有多维色谱,一个样品分部层析,层层分离。最新的是分子扫描,双向电泳先把样品分好,在电场作用下把样品转移到第二张膜上,在第二张膜上直接做蛋白水解,这样就不用转移到试管里了,再转移到第三张膜,做质谱扫描分析。Celera投资了10个亿在这个技术上,分子扫描将来每天可以分析上万个蛋白质。以前一天做几十个已经很不错了,所以celera的首席专家说,我们要对人的每一样组织,每一样器官,每一样细胞进行分析,把所有的信息整合起来,就可以做出一个人类蛋白质组。
什么是差异表达谱?
基因组是固定不变的,从体细胞到性细胞,从小孩到老人都是一样的。蛋白质组是变化的,同一个体从小孩到老人蛋白质组就有变化,同一个体的器官组织不同,肌肉,肝脏,脾胃它们的蛋白质组差别就很大,如果人平均有200个组织,那么人就有200套蛋白质组。这是动态的,人在生病期和恢复期都是不一样的,可调节的,是有时空变化性的,而基因组是静态的,所以蛋白质组比它复杂的多。因此,对基因组的测序是可以完成的,但是对蛋白质组的测序从理论上来讲只能是无限接近,并不能测得全部。我们借鉴了功能基因组的方法,研究在发育不同阶段、有病及健康时个体蛋白表达的差异,这样我们就得到差异表达谱,不同器官的差异表达谱。把所有的信息整合起来才能接近于一个完整的蛋白质组,所以此项研究比人类基因组规模还要大,而且复杂。
关于数据库
国内差异表达谱做的比较多,一般十个点左右。我们也做了这方面的工作,我们最近做的差异表达谱可以在上千个点中拿到两百多个点,而且我们知道这两百多个点是什么蛋白。这样的数据库我们有三四个,有人肝脏的,有鼠海马体的,还有沟状螺旋体的。最近我们刚建立了自己的数据库网站(www.sibs-proteome.org),国内我们是第一个,大家可以查看一下。有些同志说做了十几个点就说自己有数据库了,这是不对的,数据库有两个游戏规则,第一个你要知道几百个点,因为上千个点中你知道几十个点是没用的,第二个你要与其它的数据库网站联系起来,你要标明实际上有多少个点,你做了多少,用的什么方法,你这个参考信息来自哪里,该套数据要全,让别人用起来很方便,因为网站是共享的,所以提供信息要全。我们这个数据库是与中科院生物信息中心一起做的。国际上作质谱的实验室有上千个,但是有数据库的可能只有几十个,我们要跻身于此。
关于基因组和蛋白质组的相互补充
最高层次的蛋白质组学研究就是蛋白质组和基因组信息的相互补充,这个是我们与南方基因组共同合作的课题,南方基因组有一个课题是研究钩状螺旋体与发病关系的。南方基因组测基因组序列,我们做双向电泳数据库,他们找到的东西可能在我们这里找不到,我们找到的东西他们可能没有,相互补充,相互检验。比方你找到几种参与三羧酸循环代谢的蛋白,有几个没有找到,我们希望通过基因组和蛋白质组两个相互补充,得到一个较完整的。这是我们早期做的,有50个点,现在有两三百个点,每个点做好后的数据都要拿出来,编码是多少,是什么东西,是哪个酶,这些数据我们还在补充,希望通过与南方基因组的合作,争取在上半年完成。
蛋白质组研究中是否有类似PCR这种具有突破性的技术?
现在还不知道,讲不准。分子扫描讲起来挺好的,我也做过这方面的类似工作,但是结果不是最理想,你想,从一张膜转移到第二张膜,小分子转的很快,大分子却很慢,这些问题都没解决,这样损失很多就没意思了。如果理想的话,这种方法还是不错的,不过实践上还需要一段时间。现在蛋白质组学研究方面的新技术大家都可以提出,但哪一种方法对蛋白质组学研究可以起很大的突破作用,还没有数。现在最经典的方法还是用双向电泳和质谱,其它可以作为一种尝试。