化学信息学 - 激酶组学范围内所有高质量化合物数据集的分析与模拟研究

时间:2014-06-05

蛋白激酶组学范围内所有高质量化合物数据集的分析与模拟研究

参考文献:J. Chem. Inf. Model., 2013, 53 (1), pp 27–38IF=4.304

链接:http://pubs.acs.org/doi/abs/10.1021/ci300403k

      为了客观评价所收集的大量激酶化合物数据的价值,作者通过这些化合物数据建立了几百个不同种类的分类和回归模型。具体的数据收集整理和建模过程可以概括为:1. 对来自KKB数据库已发表的化合物结构进行标准化处理(盐离子和重复片段的去除、立体化学和形式电荷的标准化、互变异构体的统一等),该过程由自定义的PP流程自动完成。2. 对每种化合物生成ECFP4描述符用于建模。3. 为了能够评价激酶化合物活性范围并涵盖化合物结构空间,作者还采用Tanimoto距离对化合物进行聚类,一共得到336类化合物。4. 最后作者采用PP众多的建模方法模块针对不同体系建立了多个定性和定量模型,包括:朴素贝叶斯(Laplacien-Corrected Naïve Bayesian Classifiers)分类模型,kNN和PLS算法的回归模型。并对不同模型的准确性进行了详细评价和比较,具体内容可参考原文献方法部分。

      本文的研究表明,尽管激酶组学范围内的实验数据存在多样性(heterogeneous),但实际分析研究结果证实利用这些实验数据与机器学习算法相结合可以建立稳健的化合物分析预测模型,并能够高效的用于化合物实际虚拟筛选与分析工作中。

 

图1. 不同分类模型的性能评价及不同体系的ROC曲线特征分析与比较