化学信息学 - 基于Chembl语料库的药物化学文献的文本分类器

时间:2014-11-04

A document classifier for medicinal chemistry publications trained on the ChEMBL corpus

ref: Journal of    Cheminformatics 2014 6:40.          IF=4.54

链接:http://www.jcheminf.com/content/6/1/40

 

      Chembl数据库含有大量的化合物的2D结构及其生物活性数据,这些数据都是手工从大量的文献中提取出来的。其中,第17版本的chembl 数据库的数据来自于47,939篇文献,有别于其他文献数据的是,这些文献都含有化学结构和生物活性信息,使得它们能够成为很好的预测含有化学结构及生物活性数据文献的训练集。居于此,作者利用chembl所提供的47,939篇文献,以及从Medline数据库中随机抽取47,939篇不重复的文献,作为训练集,构建Chembl-like的文献分类器。


                                                                                

图1 构建Chembl-like药物化学文献分类器的文档处理和分类的工作流程。(NB,贝叶斯模型;RF,随机森林模型)

图2 Pipeline Pilot构建Chembl样文献分类器的Protocol。

 

图3 利用Pipeline Pilot自动获取Pubmed每日关于疟疾方面的文献更新,并利用NB Chembl-likeness模型对文献进行分析,判断是否是药物化学相关的文献,存入疟疾文献数据库,同时自动将筛选后的文献定时发布到Twitter上。