利用机器学习对生产中的电池周期寿命进行早期质量分类和预测-创腾科技

利用机器学习对生产中的电池周期寿命进行早期质量分类和预测

来源：计算模拟平台

摘要：准确测定产品质量是锂离子电池（LIB）生产中的关键挑战之一。由于LIB是复杂的电化学系统，传统的质量控制措施（如老化）耗时且成本高昂。本文介绍了机器学习方法在早期质量预测和生产单元分类中的适用性。使用29个NMC111/石墨软包电池的在线测量数据，比较了线性回归模型和人工神经网络（ANN）的预测精度。从综合电化学阻抗谱（EIS）和循环数据集中，共提取、组合和分析了24个特征。最优的人工神经网络在不到两天的观察时间内实现了10.1%的测试误差。对于分为两个生命周期组的分类，最大准确率达到97%。此外，在润湿期间，仅使用EIS测量就可实现高寿命电池的可靠分类。结果突出了数据驱动模型在预测LIB生产中质量方面的巨大潜力，以及它们的实现对提高产量和整体单元质量的巨大潜力。

1、引言

到目前为止，高成本和安全问题限制了锂离子电池（LIB）广泛的市场渗透。因此，在电池生产中提高质量和降低制造成本是一个关键挑战。

从生产链来看，电池质量主要是在最后的工艺步骤中进行检查的：化成、老化和下线（EoL）-测试。这些步骤对于确保高质量的LIB至关重要，但会给制造成本增加巨大的费用。化成和老化占总制造成本的28.7%，占相当大的份额。一种可行的方法是，在进入老化步骤之前，使用预测质量模型来识别电池质量，以减少处理时间，甚至消除整个处理步骤。因此，需要基于生产数据的电池寿命早期预测方法。

近年来，人们提出了几种数据驱动的方法，使用各种分析方法来分析LIBs的状态和质量。为了预测寿命或剩余使用寿命（RUL），应用了随机过程、筛选和人工方法等领域的各种方法。特别是，基于特征的方法是一种很有前途的解决方案。对于这些方法，使用电池测试系统收集电池数据，并识别和选择合适的特征。在此基础上，开发并应用机器学习模型确定数据集中的相关性。其目的是获得数据集特征与单元寿命之间的高度相关性。

本案例学习了机器学习方法，并利用润湿、化成和早期循环的数据预测电池周期寿命，而无需复杂的老化模型。针对可实现的循环寿命，评估了具有不同电解液量的室内制造袋式电池。由于使用人工神经网络和线性回归模型在预测循环寿命方面取得了有希望的结果，因此使用总共24个输入特征对这两种方法进行了验证和比较。选择最适合的模型进行质量分类和预测性能评估。随后，利用生产过程和早期循环的数据，对低循环和高循环寿命组进行分类。将预测模型和分类模型结合起来，将等级划分为四个质量组。最后，基于预测模型提出了生产策略，以提高产量和整体质量。

3、方法

3.1 数据预处理

创建了线性和非线性机器学习模型来预测周期寿命，并将LIB分类为具有不同周期寿命的组。总共记录了29个软包电池的数据集，并通过机器学习模型进行了分析。按照Bhagwat等人的建议，将电池随机分为训练电池和测试电池，训练/测试比率约为70%/30%。在29个可用的电池中，20个电池用于训练，9个电池用于模型测试。使用了三种不同的数据源，它们来自于润湿、化成和后续循环期间的测量。首先，对数据集进行预处理，并创建特征。

3.2 线性回归模型

这些特征被用作线性回归模型的输入。特征值x_i和预测循环寿命y*之间的线性关系根据式（1）定义。按照Joshi等人的方法，引入了权重参数w₀和w_i，为特征分配不同的权重。

公式1-1.png

为了避免过度拟合，应用了正则化技术。作为一种正则化方法，弹性网络被使用，因为当特征之间存在高度相关性时，弹性网络的性能得到了改善。此外，当分析具有比观测值y更多预测因子x_i的相关性时，弹性网络表现出更好的性能。弹性网络是套索回归和岭回归的组合。Joshi等人提供了关于正则化线性回归的详细信息，线性回归的损失函数如式（2）所示。

公式2-2.png

3.3 人工神经网络

除了线性回归模型外，还创建了人工神经网络来解决回归和分类问题。回归和分类之间的主要区别是输出。通过解决回归问题，目的是预测连续变量，例如循环寿命。分类旨在将数据分配给不同的组。由于电池被分为不同的组，具有不同的周期，因此变量是离散的。

人工神经网络基于生物大脑中的神经网络结构。因此，人工神经元被安排在不同的层中并相互连接。ANN由至少一个输入层和一个输出层组成。中间的层称为隐藏层，通常可以有任意数量的隐藏层。使用前馈神经网络，将信息从输入层传输到输出层。处理信息的算法是一系列不同的数学函数。首先，对神经元中的输入值进行汇总。该和用于激活函数，其中计算神经元的输出。在随后的分类任务中，将电池分为不同的周期生命组。因此，一个热编码表示用于不同的组。一个hot定义了到包含元素0和1的向量的转换。值1表示相关类别，0表示其他向量条目。因此，元素的数量等于类别的数量。作为回归的损失函数，使用均方误差。对于分类，应用了分类交叉熵函数L：

它测量了观测值y和预测值y之间的差异*。模型的显著性通过误差百分比进行评估，误差百分比在公式（4）中定义：

4、结果

为了比较所提出的机器学习模型的预测能力，对数据集进行预处理，并提取特征。根据相关强度选择决定性特征，并进行组合以获得最小预测误差。随后，以不同数量的生产和循环数据作为输入，执行了若干分类任务。

4.1 数据分析

最初，确定了准确预测所需的数据库。由于整个数据集过于复杂，无法在回归中进行分析，因此提取了特征，作为机器学习模型的输入。可以将分离分为从电化学阻抗谱（电阻）提取的特征和从蓄电池测试系统提取的特征（电压和电流）。此外，特征可根据其各自的工艺步骤进行划分：润湿、化成或循环。因此，从生产数据中提取了若干特征，并对其是否适用于早期循环寿命预测和分类进行了检查。表1显示了具有最高相关性的各自来源的特征。

表1 比较示例性特征的相关值。

表1.png

图1.png

图1 依赖于两个不同周期的预测误差。使用线性回归模型，利用循环n和循环k（n>k）之间的输入特征“Δ放电容量”获得百分比误差。插图显示了整个图表的放大部分。对于从高到低的值，百分比误差的颜色编码为从黄色到蓝色。

敏感性分析得出的数字，如图1所示。选择放电容量作为灵敏度分析的特征，因为它依次具有最高的相关性，确定了两个不同循环n和k的放电容量差异，并使用线性回归模型计算了百分比误差。

4.2 基于回归的模型比较

为了比较线性回归模型和人工神经网络的性能，使用不同数量的特征评估了测试误差。研究结果表明，与线性回归模型相比，人工神经网络允许在输入特征量较高的情况下实现较低的百分比误差。因此，ANN被用于后续的分类任务。确定放电容量及其二阶和三阶矩是预测循环寿命的合适特征。因此，制造商在预测电池质量时应首先考虑这些特性。

图2.png

图2 预测误差取随输入周期数变化曲线。使用循环1和参考循环之间的输入特征“Δ放电容量”获得百分比误差。对于每个数据点，使用重新训练的模型进行5次运行，每次运行包含9个测试组。

表2使用越来越多的特征比较两个预测模型的测试误差。

表2.png

4.3 分类任务

对于第一个分类任务，电池被分为两个不同的组：一个周期寿命小于250个周期的低周期组和一个周期寿命大于250个周期的高周期组。使用人工神经网络，对具有不同输入数据量的电池进行分类，并对结果进行比较。各分类的测试结果如图3a-d所示，定量比较如表3所示。

图3.png

图3 按照高循环寿命和低循环寿命分为两组。（a-d）概率反映了人工神经网络在分类高循环寿命组（循环寿命>250个循环）。分类任务a-c的结果是通过不同数量的输入数据获得的。假阳性（左上）和假阴性（右下）象限以深灰色突出显示。

为了评估模型的可靠性和性能，在每次运行中使用随机训练和测试数据重复计算五次。除了分类本身之外，还对概率进行了分析，以确定模型的确定性。概率表明了神经网络对电池分类的确定程度，并允许对性能进行更精确的分析。接近1的概率表示该单元很可能属于高寿命组，接近0的概率表示该单元更可能属于低寿命组。当值接近0.5时，ANN无法明确地区分高寿命组和低寿命组。因此，绘制寿命期间的概率，如图3a-d所示，左下象限和右上象限的分类正确；另外两个象限中的一个分类不正确。错误的象限以灰色突出显示。表3总结了平均分类准确性。

表3 两组和三组分类任务的准确性。

表3.png

4.4 打分任务

除了分类任务外，还进行了循环寿命预测，并根据预测的循环寿命进行后续打分。以四个不同质量组的电池为例，用人工神经网络预测电池的循环寿命并进行打分。图4a-c.的低周期寿命电池（质量D）的范围从0到200个周期不等。其他质量组C–A以100个周期的递增步骤为例进行定义。对预测周期寿命在观察周期寿命组范围内的电池进行正确打分（白色区域）。灰色区域中放置了打分不正确的单元格。最好的预测结果是将数据点排列在图的对角线上。

图片4.png

图4 按质量等级分类。预测循环寿命超过观察循环寿命，并使用化成数据（a）、前5个循环的循环数据（b）和前20个循环的循环数据（c）对质量组进行分类。从200个周期开始，每100个周期定义一次质量等级，并为每个等级分配一个字母a-D。

通过仅使用化成和润湿数据，循环寿命小于200个循环的所有电池在质量D下都得到了正确打分。然而，在较高的循环寿命下，预测精度降低到62%的总体精度。图4a显示，所有周期寿命大于400个周期的电池都被错误地放置在质量B而不是质量A。因此，化成后的数据库似乎不足以精确地打分为多个质量组，但周期寿命低的电池被可靠地检测到。

添加前5个周期的数据集可以更准确地预测具有更高周期寿命的电池。先前强烈分散的电池沿理想对角线紧密排列。如图4b所示。在不同的质量等级中仍然存在误分类，导致总体准确率为83%。当使用几个周期时，这与回归模型的不确定性一致。然而，与分为两组相比，使用循环运动的数据集可以改善结果。

图4c显示了添加前20个周期的数据集时的打分结果。同样，观察到的和预测的循环寿命之间的差异很小。错误分类很少发生，仅适用于循环寿命接近两个质量等级边界的电池，导致总体准确率为86%。在所有打分中，打分精度都小于分类任务中的分类精度（见图3）。这是由于存在四个组而不是两个组，以及严格定义的阈值。然而，所有错误分类的单元格都非常靠近各自的边界。因此，使用人工神经网络进行准确打分是可能的，这使得数据驱动的早期质量分类能够在LIB生产中应用。

5、讨论

LIB生产中的一个主要挑战是确保电池质量，老化等传统质量措施耗时且成本高昂。本案例进一步对数据驱动的工业电池生产预测质量模型的潜力以及对过程链的影响进行了讨论。

5.1 过程偏差的早期检测

与耗时的质量保证过程相比，数据驱动分析在检测润湿和化成过程中的工艺缺陷方面具有巨大潜力。

5.2 产量增加

除了分析工艺偏差外，数据驱动分析有助于在早期阶段检测缺陷单元，从而提高生产产量。结果表明，在时间和资源密集型老化步骤之前，神经网络有助于确定LIB的质量，即循环寿命。因此，湿润和化成的信息足以进行第一次质量分类（见图3）。

5.3 质量测定的扩展数据基础

利用所提出的预测和分类方法，制造商可以利用生产数据并实现早期质量保证，而无需耗时的循环。因此，预测早期循环寿命与确定准确的RUL是不同的挑战，RUL通常用于应用中的动态电池运行。研究结果表明，制造商可以使用数据驱动分析来补充老化和EoL测试的质量测定，以获得改进的质量测定。

5.4 备选工艺路线

将先前工艺步骤中的工艺和单元数据与神经网络和循环数据结合使用，可以实时预测循环寿命。只要电池在循环期间被可靠地分组为质量等级，就可以根据质量组销售电池。然而，需要进一步研究，以评估环合方法在质量测定方面是否优于传统老化方法，以及该方法是否经济可行。

6、结论

在这项工作中，数据驱动的机器学习方法被用于电池生产中的早期质量预测和分类。使用29个NMC111/石墨软包电池的不同数据集，对线性回归模型和人工神经网络（ANN）的预测精度进行了比较。对于总共29个输入特征，良好的ANN实现了10.1%的最小测试误差。另外，当仅使用少数输入特征时，线性回归显示测试误差约为13%。

在第二步中，根据电池的周期寿命，选择神经网络来分类寿命组。最佳分类模型对两个生命周期组的分类准确率为97%。通过仅使用润湿后的测量数据（EIS数据）和化成后的测量数据（EIS和化成数据），分类精度分别达到80%和88%。由于在所有分类中几乎没有假阴性，因此表明了对缺陷电池的可靠检测。最后，通过预测电池的周期寿命并随后划分为质量组，证明了数据驱动神经网络的能力。虽然神经网络没有关于电池化学或降解机制的信息，但通过从电分析和电化学分析中提取的特征，可以实现高度的准确性。

这一发现未来可用在锂离子电池生产的早期阶段检测有缺陷的电池，从而提高产量并提高整体质量。可以快速检测工艺错误，并根据质量预测调整工艺流程。进一步的研究将侧重于提高润湿和化成的预测精度，以及通过基于周期的老化对成本降低进行量化。

参考文献：Journal of Energy Storage 50 (2022) 104144, https://doi.org/10.1016/j.est.2022.104144