药物设计-Pipeline Pilot- 批量提取化学文献中的化学名称

时间:2014-07-09

      化学文献特别是化学专利中,包含着大量的化学名称,如化学通用名,IUPAC命名,CAS号等等。对于这一类大量存在化学名称的文献,可读性一般比较差,读者通常难以理解,需要花费大量的精力将化学名称转换为化学结构以后才能够对文章的内容进行理解。对于专利解读人员来说,这将是一个更痛苦的事情,因为要全面了解化学专利中保护的化合物,通常需要将专利中所有化学名称进行转换,这将是一个更费时费力的过程。

      利用Pipeline Pilot中的Chemmining相关的组件,我们可以很方便地提取文献中的化学信息。其中,Identify and Convert Chem Names组件能够自动地识别出文献中的所有化学名,并且能够自动将所有识别到化学名称转换成化学结构。

 

图1、 Pipeline Pilot识别化学名称并完成结构转换的示例流程

图2、 对化学专利Claim部分化学名称识别和转换的结果:对所有化学名称进行高亮显示,当鼠标悬停在化学名称上时,能够自动显示该化学名对应的化学结构,提高文档的可读性。同时可以将转换结果批量输出,便于保存和后续的分析处理。