近日,华大基因公开一种基因融合检测算法SOAPfuse。模拟数据和真实验证数据的综合测评表明,该算法具有准确率高、敏感性强、精度高、资源消耗少等优点。该算法主要采用局部穷举算法和一系列精细的过滤策略,从而对基因融合进行快速、精确的检测。相关研究成果在《基因组生物学》(Genome Biology)杂志上在线发表。
基因融合是指染色体上两个异位的基因嵌合在一起,形成一个嵌合基因的现象。这种现象一般是由于染色体发生易位、缺失或者倒置造成的,它们在癌症的发生上扮演着重要角色,并且可以作为诊断和治疗癌症的靶标。随着对基因融合的深入研究,科研人员发现,除血液系统肿瘤外,在实体瘤中也存在着基因融合现象。
传统基因融合研究方法存在通量低、操作复杂、不便于大规模样品筛查的缺点。而高通量RNA测序技术具有通量高、成本低、检测精度高和检测范围广的优点,其与全基因组测序相比,不仅能找到由于重排导致的基因融合,还能找到更多转录水平上的融合。
SOAPfuse算法首先通过比对到基因组和转录本中双末端(pair end)关系的序列寻找候选的基因融合,然后采用局部穷举算法和一系列精细的过滤策略,在尽量保留真实融合的情况下过滤掉其中假阳性的基因融合。同时,该算法还具有融合断点预测和可视化功能,这对临床分子分型和肿瘤新药的开发具有重要意义。(生物谷Bioon.com)
doi:10.1200/JCO.2012.46.9270
PMC:
PMID:
SOAPfuse: an algorithm for identifying fusion transcripts from paired-end RNA-Seq data
Wenlong Jia, Kunlong Qiu, Minghui He, Pengfei Song, Quan Zhou, Feng Zhou
We have developed a new method, SOAPfuse, to identify fusion transcripts from paired-end RNA-seq data. SOAPfuse applies an improved partial exhaustion algorithm to construct a library of fusion junction sequences, which can be used to efficiently identify fusion events, and employs a series of filters to nominate high-confidence fusion transcripts. Compared with other released tools, SOAPfuse achieves higher detection efficiency and consumed less computing resources. We applied SOAPfuse to RNA-seq data from two bladder cancer cell lines, and confirmed 15 fusion transcripts, including several novel events common to both cell lines. SOAPfuse is available at http://soap.genomics.org.cn/soapfuse.html.