药物设计 -自动获取靶点及化合物活性信息,Pipeline Pilot在线整合Chembl数据库

时间:2014-07-09

      Chembl数据库是欧洲生物信息研究所(European Bioinformatics Institute,EBI)开发的一个在线的免费数据库,它通过从大量文献中收集各种靶点及化合物的生物活性数据,为药物化学家们提供了一个非常便利的查询靶点或化合物的生物活性数据的平台。目前,该数据库共收集了9414个靶点,156.6万个化合物,共有1200万条生物活性信息。通过该数据库,用户可以快速查询到某个靶点目前以报道的化合物及其活性信息,也可以查询某个化合物在哪些靶点做个生物活性测试及其数据。这些数据都来源于各种已报道的文献,数据较为可靠,且能够溯源,查询到数据的出处。通过该数据库,用户可以节省大量查阅文献和收集化合物数据的时间,快速获取准确的化合物及其生物学数据,进一步加速药物设计和药物开发的速度。

      这里我们将给大家介绍,如果通过Pipeline Pilot来自动获取Chembl数据库中的数据,从而将查询到的靶点或化合物的活性数据直接后续的定量构效关系(QSAR)、药效团、分子对接等药物分析中。

      Chembl数据库通过Web Service,为用户提供了丰富的查询接口,可以进行各种信息的查询:如查询化合物的图像,活性信息,相似搜索,子结构搜索;靶点的活性信息,序列;分析测试的文献信息等。

 

图1 Chembl的化合物的子结构搜索查询语法

 

      通过使用Pipeline Pilot中的XML reader或者是JSON reader组件,我们就可以直接在线地获取Chembl数据库的数据。Chembl化合物查询中,需要将化合物转换成SMILES码,这个转换我们可以使用Molecules to Smiles组件进行转换;同样的,Chembl数据库获取数据中的化合物结构都是SMILES码,我们也可以很方便地利用Pipeline Pilot进行生成对应的化合物结构。

 

图2 Pipeline Pilot进行Chembl的化合物的相似性搜索和根据靶点查询