化学信息学 - 基于PP和ChEMBL语料库设计的药物化学文档分类系统

时间:2014-12-08

基于PP和ChEMBL语料库而设计的药物化学文档分类系统
A document classifier for medicinal chemistry publications trained on the ChEMBL corpus
参考文献:Journal of Cheminformatics 2014, 6:40
文献链接:http://www.jcheminf.com/content/6/1/40
 
      已知,人工录入文档数据费时费力,所以无论是生物医学研究人员,从事文本挖掘的研究者,还是文献管理人员,都迫切希望能够有一款自动化的专家分析系统帮助他们完成文献(文档)分析的工作。本文所介绍的文献正是进行了这样一项专门针对47939篇ChEMBL数据库中的药物化学类的文档进行了分析,并基于工作流平台搭建了一整套用于文献/文档自动化分类的工作流程。
      文献中作者采用了Bag-of-words思想(BoW模型)来训练分类算法,即:忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档,而且文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。同时,用于算法训练的数据则是源自ChEMBL语料库中不同文献的标题(Title)和摘要(Abstract)部分的文字内容。文献中文档数据处理和分类建模的设计思路和完整工作流示意图如图1所示。最后,文献中所介绍的文档分类模型的结果表明,其具有较高的分类准确性(其中:AUC=0.98,灵敏度=0.90,特异性=0.97,MCC=0.88)。该文档分类方法和模型的下载网址为:ftp://ftp.ebi.ac.uk/pub/databases/chembl/text-mining。如果您是Pipeline Pilot软件的用户,则可以直接导入EBI官网基于PP搭建的文本分类protocol,用于实际的研究和分析工作中(如图2所示)。此外,如图3所示,研究人员还对文中使用的两个数据集来源进行了统计分析,结果显示ChEMBL中的数据明显与化学相关,而MEDLINE中的数据则更倾向于临床研究数据。
 
图1. 文档数据处理和分类建模的完整工作流示意图
 
图2. 作者在PP中完成文档数据处理和分类建模的protocol示例图
 
图3. ChEMBL和MEDLINE两种不同文档数据库中数字特征统计的标签云结果图