越来越多的学术界和工业界新药开发组织、信息发现技术公司开始重视标准化多学科分子信息平台的构建。这种将化合物分子的化学信息、生物信息和临床信息集成并从中提取知识的技术,可以大大提高新药开发的效率。国际上这方面的研究进展值得国内同行关注和学习。
瑞士Novartis生物技术研究院的分子信息平台围绕先导化合物发现,提供计算方法的集成通道(integrated pipeline),用于并结合化学信息学、生物信息学、对接和3D药效团分析的高通量计算机筛选。四项核心活动是:1)分子多样性管理(内部组合化学和外部化合物获得);2)基于高通量对接和3D药效团搜索的计算机筛选;3)高通量筛选和图表(profiling)数据的集成分析;4)计算机筛选中的数据库管理和软件工程。分子多样性管理:采用由Sandoz开发的Similog分子描述符相似度分析方法对MDDR数据库进行筛选,涉及H键供体和受体、松散性、阳电性等原子功能描述符,Unity-2D指纹,2D拓扑描述符,ISIS public key count,以及电荷状态描述符。由经典的配体数据库系统MDDR、WDI、CMC、Ensemble等提供配体结构信息、治疗信息和分子药靶信息。筛选库包含若干类型的子集:已知的生物活性化合物、药靶族聚焦库(例如激酶、蛋白质分解酶等)、模拟肽、天然产物及其衍生物、多样性导向合成库,以便模仿天然产物的复杂结构、骨架和立体化学多样性。该研究院拥有约500万化合物和约4000骨架化学数据库,以及精选的供应商目录。对每个录入的化合物,将保存原始结构,并通过数据通道化(pipelining)工具脱除所有溶剂和盐碎片使结构表达标准化。通过定量构效分析模型预测技术发现高通量筛选数据中的假阳性和阴性。在先导化合物发现中使用高通量对接进行活性计算定位扫描试验,以提高吸收、分布、代谢、排泄(ADME)特性。以蛋白酶药靶为例,通过取代位置商业试剂与骨架的紧密结合,构造了10000个化合物的虚拟库。最后选出了20个化合物进行合成,其中4个被证明是有活性的,而其中最具活性的化合物被确定为先导化合物。该平台采用Pipeline Pilot Software SciTegicTM软件通过计算步骤的分支网络实现药物开发过程中的数据流分析和管理。
成立于1999年的英国De Novo Pharmaceuticals公司是一个脱胎于剑桥大学药理系药物设计小组的独立公司,开展如下药物设计合作:根据客户提供的药靶迅速给出能够与靶点活性部位结合的数千分子,结合医学化学减少结构数量。然后通过组合化学、构效关系筛选,反复进行设计合成与试验,从而快速得到先导化合物。该公司技术包括基于配体设计(柔性匹配)Quasi2™、基于结构的设计(位点分析)SiteExplorer™、结构生成(可能的分子结构)SkelGen™、库设计(骨架选择)LibMaker™和分子对接(虚拟筛选)EasyDock。化学结构生成程序Skelgen™通过算法产生可能的分子结构,通过残基选择进行优化,然后以蛋白质活性位点的分子骨架为中心设计聚焦型组合库。在已知结合小凹约束内进行分子碎片拼接。在虚拟化学合成考虑了H键、亲油性、静电和空间位阻参数等物理化学性质,设计时共应用了21项因子。2003年De Novo与Roche公司合作开发的Skelgen Ⅱ™包含了合成化学的know-how。LibMaker™提供根据生成策略提供一系列分子骨架,供化学家选定将要修饰和开发focused化学库的那些骨架。
PharmaDM公司是一家药物发现分析解决方案的全球供应商。该公司的数据挖掘技术使新药研发者能够通过统一的平台(关系数据挖掘软件DMax™)从生物、化学和临床数据信息中提取知识,缩短药物开发全过程、优化药物产品线。数据提取方式有:分类、回归、聚类、概述、频繁模式发掘和可视化。应用领域:药靶确证、更好地理解基因表达谱、基因功能预测、分子构效关系预测、先导分子优化(生物利用度、分布等)、毒性预测、化学合成路线优化和抗原决定位鉴别。DMax™软件包含关系数据挖掘、决策树、数据立方体三个部分。优点是:避免数据缩减、完全集成分析、将图像和文本转化成可以挖掘的格式、数据生成和数据分析闭环。关系数据挖掘技术以原始的天然数据为输入值(传统的数据挖掘技术将输入数据缩减为描述符列表,PharmaDM将挖掘技术应用于原始数据库并自动生成复合描述符),从数据中提取综合知识而不是简单的数学方程(提取模型可以是相当复杂的英语逻辑规则,科学家无需掌握计算机语言),还可以通过背景信息补充知识。