药物设计-经得起时间检验的QSAR模型

时间:2015-01-15

Quantitative Structure−Activity Relationship Models That Stand the Test of Time

Mol. Pharmaceutics 2013, 10, 1183−1190  IF 4.787

文章链接:http://pubs.acs.org/doi/abs/10.1021%2Fmp300466n
 

      QSAR模型除了受到模型本身预测能力的影响外,同样一个模型,随着时间的推移,预测能力往往不断地下降。如图1中的BNN(Bayesian neural network)模型,随着预测准确性不断的下降。此外,同样一个模型,应用到不同的项目中,其预测能力往往也会有很大的差别,在某些项目中,模型的预测能力非常好,而在另一些项目中,该模型的预测能力可能会很差,如图2 所示。
      如何保证企业或者研究机构内部使用QSAR模型对新化合物进行最有效的预测,作者采用了多种方法:(1)采用多种方法构建模型;(2)定时更新模型,如每周将试验测试的新数据添加到已有的模型中,保证模型的数据最全最新;(3)采用多级模型,分为全局模型,项目模型和系列模型。全局模型即将使用所有可以获得的数据构建的模型;项目模型则使用该项目已有实验测得的数据构建的模型;而系列模型则是对每一个项目中的不同系列化合物测得的实验数据分别构建的模型。用于新化合物预测时,只要使用预测能力最佳的模型进行预测,就能够保证预测的准确性和鲁棒性。
      尽管采用多级模型的方法具有多种优势,然而其在模型的维护和使用上却有多种问题。首先对于模型构建者来说,当需要模型的种类及项目数比较多时,每周需要更新的模型数量将会非常大,模型构建者的工作量会非常大,同时如何对众多模型进行有效的管理也是一个问题;其次,对于使用者来说,使用哪一种模型进行预测,对他们来说也是比较头疼的问题。


                               

图1  不同QSAR模型随着时间的推移,预测准确性的变化情况

                 

图2 不同项目中的化合物使用同一个模型进行预测,预测误差往往有较大的差异。(a)上图,预测误差在运行范围内的项目;(b)下图,预测误差超过运行访问的项目,这些误差可能是由于系统误差引起的,预测值与实验值有较好的相关系数,但却有一定的便宜,如橙色的椭圆形,也有可能是模型本身无法准确预测引起的,如红色圆形部分。

      了解决这一系列问题,阿斯利康的科研人员,使用Pipeline Pilot构建了AutoQSAR系统(图3)。通过AutoQSAR系统,模型的构建者可以方便地对多种类型,多个项目的模型进行定期更新,并通过数据库对模型进行有效的管理。而对于模型的是使用者来说,AutoQSAR能够自动地帮助用户优选出最好的模型进行数据的预测(如图4),从而保证模型预测的准确性。实践证明,通过AutoQSAR,能够较好的提高模型预测的准确性,如图5所示。
 

                           

图3 基于Pipeline pilot构建的AutoQSAR的框架图




 

图4  AutoQSAR自动选择最佳模型的示意图。首先从数据库中获取各种数据模型,包括针对全局、项目、化合物系列及使用不同方法构建的模型,然后对一个公共测试集(通常采用最近测试试验结果)进行预测,选取均方根误差最小的模型作为最优模型,用于对新化合物的预测。

图5 使用老的C-Lab模型与AutoQSAR预测化合物LogD值的准确性的对比。