生物信息学 - 基于系统数据驱动的分析方法识别抗癌药物化学物质的结构特点

时间:2015-02-13

Identification of structural features in chemicals associated with cancer drug response: A systematic data-driven analysis
Proteins: Structure, Function and Bioinformatics  DOI10.1002/prot.24756  IF:2.921
文章链接:http://onlinelibrary.wiley.com/doi/10.1002/prot.24756/abstract
 
      在化学生物学中,模拟和理解药物对不同谱系的细胞的反应是一个最大的挑战之一。为了寻找的化学结构和基因组间的反应的关系潜在规律,对大量的数据进行分析,如图1。基于CMap数据库,选用三种细胞系(HL60-血癌/白血病细胞,MCF7-乳腺癌细胞和PC3-前列腺癌细胞),每种细胞包含包含11327个基因的反应,同时选用了两种化学描述符:780个3D结构描述符和2769个2D结构指纹(FCFP4,利用Pipeline Pilot计算)。由这五种数据集组成的682药物的试验结果,通过采用组因子分析方法(GFA),将数据分解成一系列可解释组件,来分析数据集之间的统计关系,从而能够发现一些关键化合物结构片段与基因反应间的潜在关系(如图2所示)。
 

图1、 数据分析流程图。A)682个药物对应的五个数据集涵盖B)GFA方法将数据分成多个组分,主要有两类:类1为共享模式,同时包含化学和生物学描述符,而类2只包含生物学或化学描述符,而这一类则不是我们关心的内容。 C)分析每一个共享组分中关键的化学结构与基因间的潜在生物过程。
 

图2、组分1中所包含前四位的的FCFP分子指纹特征及其对应的结构片段(左),将这些结构片段合并后,即为强心甾骨架,其出现在多个药物中(灰色阴影部分)。

 
      关于FCFP描述符:FCFP是Pipeline Pilot特有的一种分子指纹算法,它能够快速地生成分子指纹。与其他分子指纹不同的是,FCFP的指纹特征并不是预设好的,而是特定算法对分子结构拆解得到的,每个指纹特征对应着特定的分子的子结构片段。因此,FCFP算法不仅能够提供比其他分子指纹算法更丰富的分子指纹特征(可以达到上千万的级别),更重要的是其分子指纹特征可以重新转换为对应的化学结构,这是其他分子指纹算法无法做到的。

图3、 左:FCFP分子指纹产生的原理;右:FCFP分子指纹特征可以在Pipeline Pilot中转成其对应的分子结构。