机器学习指导药物配方开发（AIDD助力药物研发）/ AI制药-创腾科技

机器学习指导药物配方开发（AIDD助力药物研发）

来源：计算机模拟平台

药物制剂是新药研发的重要阶段。通过药物配方设计，制药科学家可以设计新药的重要特性，如提高生物利用度和靶向给药。药物制剂开发的传统方法依赖于反复试错，需要大量资源和耗时的体外、体内实验。本文介绍了机器学习工作流的基本概念，并讨论了如何使用这些工具来帮助开发各种类型的药物制剂。以ML为导向的药物制剂开发为快速开发工作、发现新材料、创新配方和产生药物配方科学的新知识提供了前所未有的机会。本文还重点介绍了最新的人工智能（AI）技术，如生成模型、贝叶斯深度学习、强化学习，这些技术在药物发现和化学领域获得了发展势头，并在药物制剂开发方面具有潜力。

Ref：Adv. Drug Deliver. Rev. Received 13 January 2021 IF=15.47

链接：https://doi.org/10.1016/j.addr.2021.05.016

一、研究背景

药物制剂通常包括将惰性物质和赋形剂与活性药物成分（APIs）结合，以生产具有所需特性的可行药品。与优化药物配方开发相关的改进可以包括增强疗效、更长的治疗作用、减少副作用、延长APIs稳定性和保质期，以及更好的患者依从性。根据所需的给药途径和适应症的具体要求，APIs可以使用多种材料进行配制和广泛的递送系统，及时将有效药物推向市场需要创新的药物输送系统和经济高效的开发过程。

在开发的任何阶段，如果潜在配方无法满足所需的标准（如释放速率、粒度等），可能需要对其进行改进，配方开发过的难易程度与无法预测APIs和材料的组成或组合如何影响配方的性能相关参数有关。针对这个问题，制药科学家采用了计算模拟方法，如分子动力学模拟、分子对接和化学信息学工具。尽管，近年来它们在药物制剂开发中的应用取得了越来越多的成功，但是这些基于物理的模拟存在局限性。API释放等特性的预测涉及在长时间尺度上模拟大型多组分药物递送系统，因此使用原子分子动力学模拟等方法在计算上是难以处理的。

机器学习（ML）是人工智能（AI）的一部分，旨在通过数据集训练模型来建模的过程。如，ML可能允许通过考虑许多以前的实验数据来预测特定药物配方的稳定性。当前药物配方开发过程中最大的障碍是必须进行大量昂贵、费力和耗时的实验，以选择合适的材料以获得理想的配方性能(如提高原料药的溶解度)。而通过利用人工智能和ML的预测能力，制药科学家可能能够利用现有数据或通过优化实验规划来简化此类制剂的开发。迄今为止，ML模型已被开发用于解决配方科学家面临的几个固有挑战，包括预测辅料对APIs溶解度的影响，测定蛋白质的化学和胶体稳定性，预测用于配方的APIs的物理稳定性，确定APIs装载能力及释放率。本文为药物传递和制剂科学家提供ML的简要介绍，并为一种新的数据驱动的配方开发过程提供依据。

二、机器学习在配方开发中的应用

本文主要使用监督学习的方法来预测药物配方的性质。有监督学习任务旨在预测特定数据样本的数值或类。ML模型需要数据集训练，从这些数据中可以推断出与任务相关的信息来生成预测。对于有监督的预测任务，数据包括输入特征以及与这些特定输入相关联的期望预测的例子。如，预测API在表面活性剂溶液中的溶解度的模型可能依赖于API和溶剂的物理化学性质（如logP、熔点和沸点）的输入。这个模型可能会以单位为浓度（如mg/mL）输入API溶解度的值。在模型训练过程中，通过优化算法对ML模型的参数进行修正。ML模型可以完全从收集的数据中构建，这可以解决对于物理模型不可用、计算困难或实验变量和结果之间的关系未知的科学问题。因此，在成功配方和不成功配方的数据集上训练ML模型，可能会揭示最适合实现API理想配方特性的材料，如提高水溶性、保持原料药释放或改善长期配方稳定性。

2.1 API在表面活性剂溶液中溶解度的预测

为预测API在各种表面活性剂溶液中的溶解度。我们使用不同的API及其在表面活性剂溶液中的相关溶解度构成了数据集。选择随机森林（RF）和神经网络（NN）模型的使用。预测和实际溶解度值之间的均方根误差（RMSE）作为模型性能的衡量标准，可得出NN模型更准确，并发现API的logP和表面活性剂浓度是决定溶解度的两个主要特征（图1）。

图1 机器学习算法介绍及典型数据驱动模型构建的过程

2.2 口服片剂崩解时间的预测

ML在药物制剂开发中的首次应用可以追溯到1990年，当时神经网络被用于预测速释(IR)口服片剂的特性。这些研究涉及一系列片剂配方的制备和评估，神经网络或决策树算法多用来构建模型，以预测各种输出（如崩解时间、溶出速率和脆碎度）。如图2作者使用145种不同片剂配方中的23个API的数据，以使用一系列NN预测口服片剂的崩解时间。使用API和赋形剂的分子描述符以及片剂工艺参数对模型进行训练，并对数据集进行了分割训练集(70%)、验证集(15%)和测试集(15%)。在这项研究中，模型性能是根据准确预测的数量来评估的，其中准确性是基于预测崩解时间与实验时间相差10 s以内。

图2 基于深度学习算法模型的构建及评估

2.3 API在水溶助长剂中溶解度的预测

溶解性差是成功口服疏水性API，如吲哚美辛（IND）通常必须克服的挑战。在本研究中，作者旨在使用水溶助长剂（轻微两亲性有机分子）来增加IND的溶解度。通过确定IND在不同水溶助长剂的水溶液中的溶解度和不同浓度的水溶助长剂，可构建出NN模型以预测IND在假设的水溶助长剂溶液中的溶解度。通过模型解释和16种额外水溶助长剂的计算机筛选相结合，作者可以识别出IND的水解过程中重要的关键特征（图3）。基于分析作者将吡哆醇（维生素B6）确定为一个很好的候选者，随后并通过实验验证，在0.5 M吡哆醇溶液中，IND的水溶性增加了727倍。

图3 基于NN算法构建模型来预测水溶助长剂类型和浓度对IND溶解度的影响

2.4 治疗性蛋白稳定性的预测

为加速生物药的研发，ML的方法被用来预测治疗性蛋白的各种生物物理特性或稳定性。作者使用不同的ML模型结构和数据分裂策略，以预测治疗性蛋白在不同温度（4℃、25℃和40℃）下储存6个月后的稳定性（图4）。治疗性蛋白数据集来源于四家公司的捐赠，使用实验确定的指标和初步稳定性数据来进行长期稳定性预测，并使用各种交叉验证策略（5倍与10倍交叉验证和留一交叉验证）来避免过度拟合。这些研究证明了机器学习如何有益于预测生物药物的稳定性。如果能够以这种方式确定API稳定性的话，ML模型无疑将加速治疗性蛋白质的未来发展。

图4 基于机器学习算法治疗性蛋白稳定性预测模型的构建及评估

2.5 聚合物微粒中API释放的预测

ML已被用于预测聚合物微粒（MP）中API的释放率。在这项研究中，作者从已发表的文献中收集释放数据（14种大分子的68种不同的PLGA MP配方），旨在开发一个ML模型来预测从这些递送系统中释放的大分子（图5）。作者确定了320个潜在的输入特征，可用于描述MPs、释放的实验条件，以及使用大分子的物理化学性质，并经过特征和模型的选择，以构建具有高精度和最佳输入特征数量的 ML模型。在BALO特征上训练的ML模型的性能各不相同，神经网络（8-10层）从R²和NRMSE的评估可知略优于其他模型。

图5 基于ML和DL算法聚合物微粒中API释放预测模型的构建及评估

三、总结

ML模型使用户能够分析实验结果，以发现无法立即看到的细微模式。虽然本文总结的大多数研究报告了具有高准确性预测的ML模型，但其中许多模型仅进行了回顾性评估。只有有限数量的研究包括前瞻性实验验证和模型解释步骤。正是通过这些分析步骤，ML模型可用于生成新知识并提供具有改进特性和性能的创新配方。在药物配方开发中，这些实验计划算法很可能很快就会被用来告知研究人员要进行哪些实验，以最少的实验工作量来实现所需的配方特性。

总之，我们强调了几个示例，说明如何利用ML工具解决药物配方开发过程中遇到的固有挑战，并帮助开发传统和非传统药物配方。近几十年，ML技术无疑已经彻底改变了药物发现方法，目前正越来越广泛地融入医疗保健系统。ML技术可以使制药科学家进行低成本的预测，并可以显著加快药物配方的开发。预计ML模型成了制药科学必要的工具，以摆脱基于试错法的药物产品开发，并推动迈向更有效的数据驱动的配方开发过程。

参考文献：

[1] Bannigan P, Aldeghi M, Bao Z, et al. Machine learning directed drug formulation development. [J]. Advanced Drug Delivery Reviews, 2021, 175(C).