
7月21日下午,第四届小分子药物研发与创新论坛圆满落下帷幕。本次会议共邀请40余位小分子创新药企代表从国内最前沿的创新药研发案例、不可成药靶点、抗肿瘤药物、AI制药等热点领域一览当下化学创新药研发新动向。
点击 会议现场回顾

从“行业大数据”到“企业小数据”,从“专家模式”到“惠民模式”
谈AI技术在医药企业落地的数据基础及应用模式

创腾科技首席技术官冯华受邀为大家带来精彩报告《从“行业大数据”到“企业小数据”,从“专家模式”到“惠民模式”——谈AI技术在医药企业落地的数据基础及应用模式》。
机器学习与人工智能领域国际权威学者吴恩达教授说过,AI技术在一个新兴行业落地时,要考量三大要素:
一是明晰的数据驱动的战略,
二是完善的数据融合技术,
三是可靠的AI自动化平台。
除了从文献中的开源数据获取数据,我们更应该关注企业自身的研发数据如何进行采集管理,并应用到AI过程中。众所周知,在特定行业中很难找到海量数据来支撑机器学习,所以我们关注的重点应该从大数据逐渐转向一些优质数据,有50条经过深思熟虑的优质数据就足以向神经网络阐述你想要它学习什么。所以,如何构建一个平台,帮助企业把所有研发环节产生的各种类型的数据采集管理起来,是非常重要的。
现在医药行业分工比较明确,许多工作可以直接委托CRO/CDMO来做,数据以报告形式(如Word、PPT)反馈回来。这类记录在Word、PPT中的数据将来想做二次利用,做数据建模,分析哪些工艺参数对最终的产物质量产生影响,工作量是非常大的。此时,需要一个像电子实验记录本这样的系统,它可以方便地跟研发环节的所有系统串接,如和项目管理系统、试剂物料系统、成果管理系统等、仪器管理系统等都可串接。从系统的角度来说,电子实验记录本是整个研发环节系统的核心模块。另外,需要考量的重要一点是数据的利用和AI建模。这时需要考虑的是研发内容数据,包括合成制备、分析检测、毒理药理、工艺优化等,这些关键的核心研发业务数据都是在电子实验记录本这样的一些研发过程管理的模块中做管理的。所以,不管是从系统的角度来说,还是从内容的角度来说,电子实验记录本都是整个研发环节数据驱动战略落地的核心模块。许多新兴的Biotech公司,其更多的造血功能来源于融资,这时他们会考虑如何不断提升企业估值情况。其实,在大数据时代数据也是一种有价的资产。从机器学习的角度来说,只有好的数据训练出来的模型是不完备的,必须让它们学习到哪些是好的因素,哪些是差的因素,这时模型才是完备的。所以,任何一个实验哪怕实验是失败的,也是有价值的。这个价值如何评价?首先,如果没有信息化的系统,数据在纸上,数据规范有问题的话,价值无法进行评估。另外,国家从2020年开始,陆续出台了九部相关政策,其中都提到了数据的交易,包括数据的分类、评估、定价、结算等。截至今年3月,全国批复的数据交易所达到39家。所以说,数据在将来的估值体系中,也是非常重要的一部分,数据不光是为了建模,数据本身就是非常有价值的。数据融合是我们比较容易忽略的点,大家往往觉得,有了数据,有了算法,我们就可以建模了。但是线下我们发现,想要建立一个AI模型,大量时间花费在了数据融合上。拿合成实验举例,合成实验是一个一个来做的,但是在分析数据时,需要将十几甚至几十个数据放在一起做数据比较和分析。线下很多情况是,合成数据在电子实验记录本中,药理数据在Excel中、毒理数据又在另一个系统中,当我们想要汇总一个样品的合成、毒理、药理数据时,需要从三个不同的课题组/系统/平台来进行数据整理,这个工作需要花费大量时间。所以,我们需要利用数据融合平台解决这些问题。第一, 通过图形化的方式帮助我们把不同数据源的数据关联起来;第二, 需要能够处理科学数据,比如化学结构、序列结构、图谱等;第三, 能够按照业务人员的思维,重新梳理,组织数据。在后期的CMC工艺环节,需要汇总大量数据做统计分析,以及关键质量参数、关键工艺参数的监控。假设一个产品出现了质量问题——批间差,我们想要对产品质量问题进行溯源,找到是什么原因引起的——是关键过程中某些步骤控制有问题,还是操作人员操作有问题,还是原料批次不一样导致的。这个追溯过程可能会涉及到的关键工艺参数记录在不同的系统中,比如PM系统、电子实验记录本、ERP系统等,这势必需要有数据融合的系统,以实现输入样品批次号,即可摘出所有相关数据,建立相关质控图、趋势分析、方差分析,并分析问题。这时需要一个AI自动化平台来解决这个问题。如果把专业软件比作单反相机,那么AI智能平台就好比是智能手机。我们会把常用的机器学习、深度学习、分子力学、量子力学等做成组件,需要使用时,可以自由进行搭建。机器学习中的组件包括数据的预处理,标准化,归一化,模型评估,算法建模等;模拟计算的组件包括分子力学、量子力学等,几个组件即可搭建数据建模的工作流,将知识模型固定下来。工作流又可以发布成APP,将分子结构提交,即可计算出相关的数据。对于实验科学家来说 ,可以零门槛使用已经发布的物理模型或AI模型,且结果均以直观形式展示。同时,可反馈自己的数据到建模专家手中,将训练集中加入反馈的分子,重新优化训练模型,从而得到一个更合适的APP。对于模拟计算专家,无需花费大量时间上网搜索开源算法,无需考虑算力问题,通过数据融合平台即可对实验科学家产生的数据建立模型,并通过工作流的方式把重复性的工作方式固化下来,实现知识模型的固定。创腾科技基于对AI、SaaS、移动应用等前沿技术的创新性融合应用,目前拥有包括iLabPower数字化研发平台,SDH科学数据基因组和MaXFlow分子模拟与人工智能平台在内的从数字化研发到智能创新的一体化解决方案。从数据的采集与管理,到数据的抽取融合与业务智能,再到基于AI模型的智能预测,全方位助力企业和研发机构打造数据驱动的智能创新引擎!
创腾科技深耕医药和材料科学研发领域20年,通过以云计算,移动互联和科学人工智能为基础的三大自主研发平台,帮助企业和创新科研机构快速进行研发的数字化转型,实现智能创新变革:
iLabPower 研发创新平台:
实现研发全生命周期的数据采集和管理,确保研发数据的真实、完整和可追溯。通过研发的数字化转型,降低研发成本,提升研发效率,有效保护创新成果和知识产权。
SDH科学数据基因组平台:
实现跨源数据的快速融合和溯源,通过数据的业务智能,缩短产品上市周期,快速提升产品品质,增强企业的核心竞争力。
MaXFlow分子模拟与人工智能平台:
打造人人能用的分子模拟与AI智能创新平台,变革以实验试错为主的传统研发模式,实现以科学数据和模型驱动的智能创新。