化学信息学 - 针对海量化合物数据的结构进行自动化检查和标准化处理

时间:2014-08-08

 

针对海量化合物数据的结构进行自动化检查和标准化处理

      本文以Asinex化合物数据库中的13700个化合物为研究对象,通过定制简单的检查规则和标准化流程,实现化合物结构特征的自动处理,相关Protocol如图1所示。首先,读取SDF格式的Asinex化合物数据库中的13700个化合物。然后,采用PP中内置的化合物检查和标准化的组件——“Check and Normalize Structure”对化合物数据的各项性质进行检查,具体包括:价键(Valence)、 立体结构(Stereo)、 同位素(Isotopes)、 原子重叠(Atom Overlap)、 三键几何形(Triple Bond Geometry)等性质的合理性,以及是否存储查询特征(Query Features)和空结构(Empty Structure)等方面的检查,一共发现87个化合物存在问题。对于不满足上述检查条件的化合物,将再次经过“Check and Normalize Structure”组件的处理,进行化合物结构的标准化。最后,我们采用可视化组件将经过标准化之后的化合物与未处理之前的部分化合物进行可视化对比,对比情况如图2所示。

 

图1 Pipeline Pilot中化合物检查和标准化处理流程示例

 

图2 经过PP标准化处理之后的化合物与原始化合物结构对比示例