宾夕法尼亚州立大学和纽约州大学联合进行的一项研究证明一种识别基因表达模式的新方法比目前最受欢迎的方法还要有效。
用两组已公布的基因表达数据作为测试实例,研究小组发现KL聚类方法比目前最常用的基因表达模式分析方法--层级聚类(hierarchical clustering)还要优越。
聚类分析(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。
在基因表达分析中 ,识别出具有类似时间表达模式的基因“类”一般说来都是至为关键的一步,因为它为了解基因间相互作用以及生物过程的基础提供了线索。实验表明,功能类似的基因可能显示出相似的共同调控的时间模式。
宾夕法尼亚州立大学计算机科学与工程学系的教授Raj Acharya博士说,虽然这次研究选取的是基因数据,但KL聚类可用于更大样本的时间数据。
研究小组将他们的发现--“基因表达时间模式分析的理论信息方法”发表在3月期的《生物信息学》杂志上。文章作者为宾夕法尼亚大学的博士研究生Jyotsna Kasturi、Achary、以及纽约州大学药学系的Murali Ramanathan博士。
Kasturi解释说:“我们想把类似模式的基因表达数据放到变异度尽可能小的同一类中,这意味着密度更大的类。