案例分享丨利用机器学习探究铝合金缓蚀剂的结构-性能关系-创腾科技

解决方案丨利用机器学习探究铝合金缓蚀剂的结构-性能关系

来源：计算模拟平台

解决方案摘要：

有机缓蚀剂在替代传统防护技术方面发挥着至关重要的作用，因为传统防护技术存在严重的毒性问题，比如用重金属无机盐作为腐蚀抑制剂。然而，为什么一些有机化合物能抑制腐蚀，而另一些则不能，其中的机理至今仍不清楚。

本案例测试了不同的机器学习(ML)方法，以区分常用的铝合金高效缓蚀剂。研究成果可以大大有助于在未来自动搜索新的更高效的防腐解决方案:

(i) 确定了一种ML算法，该算法能够正确地分类有效抑制剂(即，效率超过50%)和非抑制剂(即，效率低于或等于50%)，即使在同一数据集中包含了不同pH下不同合金的信息，这可以显著增加可用来训练模型的信息;

(ii) 对与分子自关联相关的新描述符进行了评估，但对模型的预测能力的改进有限;

(iii) 确定了抑制剂和非抑制剂的描述符的平均差异，有可能作为选择潜在抑制分子体系的指南。

该案例表明ML可以作为一种工具来执行分子的初始虚拟筛选，从而显著加快该领域的研究。

引言

金属露在腐蚀介质中（水环境和氧气），金属腐蚀通常是氧化还原电化学反应的结果，即氧气的还原和金属的氧化。当金属表面有缓蚀剂保护膜时，缓蚀剂吸附在金属表面形成一层致密的保护膜，有效阻碍了腐蚀介质与金属的直接接触，从而起到抑制腐蚀电化学的反应。

图1 铝表面的腐蚀电化学过程，包括阴极和阳极反应(上图)，以及典型缓蚀剂(如1,2,3-苯并三唑)的吸附，以取代水分子并保护表面免受腐蚀性物种的侵害。

为了快速地筛选出高效的铝合金缓蚀剂分子，本案例采用机器学习方法对缓蚀剂的结构-性能关系进行研究，并对不同的ML算法进行比较分析，以区分铝合金的缓蚀剂和非缓蚀剂化合物的分类。这项工作有助于更好地理解每种算法的优缺点，从而预测有机化合物的缓蚀潜力。案例还提供与缓蚀剂最简单形式的自缔合有关的新描述符，即二聚化焓和二聚化吉布斯能。这些描述符是分子之间相互作用的强度的一个粗略的近似值，以在金属表面上形成粘性薄膜。这种薄膜还可以演变成多层，防止或至少减少侵略性物种与金属表面的相互作用。虽然二聚化能的计算通常比获得电子量子特性的计算要求更高，但它提供了与机械过程(保护膜形成过程中分子的自相互作用)更紧密的并行性，而仅通过将抑制效率与电子特性联系起来是无法实现的。

建立AI预测模型

1、数据和描述符

本文共研究了102个有机化合物，其中主要包括芳香族基团和/或氨基、羧基、羟基和硫醇基团，涉及到两种铝合金AA2024和AA7075，以及弱酸性(pH4)和碱性(pH10)条件，总共有408个数据条目。

描述符种类：分子量、分子折射率、辛醇/水分配系数、极性表面积、分子体积、分子面积、极性体积、给体原子数、环数（芳香族或非芳香族）、疏水基团数、受体原子数和旋转键数、AA2024_pH4抑制效率、AA2024_pH10抑制效率、AA7075_pH4抑制效率、AA7075_pH10抑制效率、二聚化焓和二聚化吉布斯能。

2、方法

机器学习方法：K近邻、决策树、带Boosting的决策树、定义错误代价的决策树、Bagging、随机森林、分类规则、人工神经网络和支持向量机。

为了评估预测模型，案例采用了5倍交叉验证方法（图2）。

图2 举例说明本工作中采用的5倍交叉验证统计方法。

结果与讨论

1、探索性数据分析

图3 显示了本案例中评估的不同条件下实验抑制效率（方框图和条形图，纵坐标0表示没有缓释作用）

根据箱形图可看出碱性条件下抑制剂的效率低于酸性条件下的效率。从柱状图可以看出，有效缓蚀剂的数量比弱缓蚀剂和非缓蚀剂的数量要少得多，这使得ML算法更难了解数据并正确识别化合物为缓蚀剂。

图4 抑制效率和描述符回归分析得到的线性相关图（蓝色表示正线性相关，而红色表示负线性相关。圆越大表示绝对线性相关值越高，而圆越小或没有则表示绝对相关值越低或线性相关为零）。

图4 研究结果表明只有氢键供体原子数与抑制效率有较好的相关性，其次是极性表面积、极性体积和环数。这表明，能够作为缓蚀剂的分子结构的识别是一个高度非线性的问题，线性回归是没有用的。

2、不同机器学习方法的对比

图5 抑制剂和非抑制剂分类的四种可能结果。

对于分类任务，性能指标考虑测试集的类别。感兴趣的类别（此处为缓蚀剂）称为正类别，而另一类非缓蚀剂称为负类别。两类缓蚀剂之间的关系如图5所示，包括四种可能的结果：（i）真阳性（TP），正确分类的缓蚀剂；（ii）真阴性（TN），正确分类的非腐蚀抑制剂；（iii）误报（FP），被归类为缓蚀剂的化合物，实际上是非缓蚀剂；（iv）假阴性（FN），被归类为非缓蚀剂但实际上是缓蚀剂的化合物。公式1、2和3定义的平衡准确性、灵敏度和特异性被用作分类的性能指标。

图6 （上图）ML算法分别研究两种合金在不同pH条件下的数据集的性能，（下图）ML算法研究同时包含两种合金在不同pH条件下的数据集的性能。

图6研究结果表明大多数方法的特异性接近90%，甚至更高。然而，高特异性（正确识别非抑制剂的概率）可能是由于数据集中非抑制剂的数量较多。因此，在统计上，他们的正确识别更可能是偶然的。另一方面，灵敏度是指正确分类真正抑制剂的概率，这些抑制剂的数量较少，并且也是具有本研究所关注条件（缓蚀）的化合物。在本研究中使用的数据集中，只有10−20%的化合物的缓蚀效率高于50%（标记为缓蚀剂）；因此，80−90%的化合物的缓蚀效率等于或低于50%（标记为非缓蚀剂）。因此，例如，如果某个特定算法预测每种化合物都是非缓蚀剂，则其特异性将达到100%，但其性能仍然不令人满意，因为它无法正确识别任何缓蚀剂。因此，最重要的参数是平衡精度，由于数据集中缓蚀剂和非缓蚀剂的数量不平衡，本研究中使用的精度与其他文献类似，50和灵敏度是正确识别的真实缓蚀剂的比率。当考虑到在两种pH条件下对应于两种合金的四个独立数据集的平均平衡精度时，算法的性能顺序如下：分类规则<带boosting的决策树<决策树<bagging<定义错误代价的决策树<k近邻<支持向量机<随机森林<人工神经网络。关于灵敏度（正确识别真正的缓蚀剂），以下三种方法对单个数据集具有最佳性能：具有误差成本的决策树<人工神经网络<随机森林。神经网络是本研究中针对单个数据集测试的最平衡的方法，在灵敏度和平衡精度之间具有最佳折衷，而随机森林具有最高的灵敏度。

为了为算法的训练阶段收集更多数据，将对应于两种合金的四个子数据集（各102个示例）混合在一个数据集中，每个数据集分别测试两个pH值，共包含408个数据点。执行此测试的目的是，如果成功，它将打开构建更大数据集的大门，其中包含对应于不同合金、条件以及（期望的）不同金属的实验测试。表1研究结果表明，特别是随机森林，具有平衡的准确性和82%的特异性，以及84%的灵敏度，从更复杂的数据集（包括其他因素和条件，例如不同类型的金属、抑制剂浓度和腐蚀环境类型）中识别缓蚀剂看起来非常令人鼓舞。

表1 在两种合金和pHs一起建模的情况下，对复合数据集进行性能测试的灵敏度、准确性和特异性，这三种方法具有最高的灵敏度。

3、缓蚀剂的主要特征

图7 缓蚀剂的主要特征

为了进一步了解区分抑制剂和非抑制剂的特性，获得了整个可用数据的平均值。结果表明，缓蚀剂具有一个或两个芳香环，旋转键很少或没有(大量旋转键不利于缓蚀)。它们的极性也更强，有3到4个氢键供体原子，并且具有更有利的二聚化吉布斯能；

尽管二聚化焓也是有利的，但抑制剂和非抑制剂的二聚化焓是相同的。更有利的吉布斯能和相似的二聚焓也表明了熵项对二聚体形成的重要性，这也与更高的抑制效率有关。

结论

1、通过该研究提供了一种不需要用实验方法评价缓蚀剂的效果，并且该研究发现，随机森林是最成功的方法。

2、对于四个独立的数据集(AA2024和AA7075，在pH 4和pH 10下)，随机森林的平均准确率为68%，同时能够正确识别83%的抑制剂。这表明在未来，分析数据不仅包括不同类型的合金和pH，还可能包括其他电解质条件，如腐蚀性阴离子浓度、抑制剂浓度，甚至金属类型。

3、引入二聚焓和吉布斯能作为保护膜形成过程中分子间相互作用的间接衡量指标。

4、对抑制剂和非抑制剂性能的平均值进行了统计分析，表明抑制剂具有一个或两个旋转键很少或没有旋转键的芳香环。此外，大量的旋转键似乎阻碍了缓蚀。抑制剂的极性更强，结构中有3到4个氢键给体原子，并且具有更有利的二聚化吉布斯能，尽管二聚化焓也很有利，但抑制剂和非抑制剂的二聚化焓相同，这表明二聚化熵是保护机制的重要因素。

参考文献：

J. Phys. Chem. C 2020, 124, 5624−5635. https://dx.doi.org/10.1021/acs.jpcc.9b09538

引言

建立AI预测模型

1、 数据和描述符

结果与讨论

1、探索性数据分析

结论

1、数据和描述符