今年三月份,世界搜索巨头Google公司终于推出它的第一款产品Google Genomics(谷歌基因组)。
相较于Google研究的高大上的月球探测器项目,Google Genomics可能对人类有更重大的意义。从现在的配对数千组基因组,随着技术的发展未来能做到配对数百万对,Google Genomics计划无疑能推动下一个十年内医学的发展。但是我们的问题又来了,亚马逊、Google、IBM、微软,巨头们开始争论,究竟谁有资格保管这些重要的基因信息?其实早在18个月前,Google已经着手在准备基因组计划,搭建了应用程序接口API,邀请领域内的科学家们将DNA数据转移到Google的服务器,使用相同的数据库技术索引备份人类的基因数据。
虽然说有部分科学家们仍在质疑,Google是否有足够的能力来正确处理复杂的基因数据。但是许多人已经看到了进步和变革。斯坦福大学生物信息学专家Atul Butte,在得知Google Genomics计划之后,他这样表示,“我终于能切实体会,当年旅行社看到Expedia横空出世时的感受了。”(小编注,Expedia是全球最大的在线旅游公司)
当生物实验室采取新的更快的实验设备来解码DNA信息,就会出现信息存储空间不足、信息爆炸的情况。举个例子说明,美国马萨诸塞州Broad Institute研究所表示,一组人类基因组信息翻译出来的数据大小有200TB,而他们实验室在10月份的工作量相当于每32分钟就会处理出一组基因组数据,所以需要的数据容量存储空间对于一家研究所来说,将是个天文数字。
虽然说如此海量的信息,一家实验室可能hold不住。但是这对于互联网巨头公司来说还算是九牛一毛。实际上Broad Institute每两个月产生的基因信息总量相当于YouTube的全体用户的一天上传总量。所以说出于生物科学的需求,需要有公司站出来担当基因信息数据存储读取的中心节点,而这通常都是一家商业网站。美国国家癌症中心上周发表声明说,将会斥资1900万美元将容量大小为2.6PB(1PB=1024^3MB)的癌症基因组图谱上传到云端。这些资料来自于数千名癌症患者,数据将会备份在Google Genomics和亚马逊数据中心。

更为重要的一点意义是,这项技术的进步能够逐渐搭建起全球DNA互联网。Deniz Kural补充说明道,“在未来比如说有位肺癌病人,医生会将他的健康细胞和肿瘤细胞的基因组信息分别排序,在DNA互联网中检索其他几千万的基因信息。接着医生会告诉病人,‘通过检索配对得出,这款药物对你的癌症很有疗效’。”这对于治愈癌症是有着重大的意义的。