化学信息学 - PP中提取近红外光谱图的谱峰信息并进行聚类分析

时间:2014-10-22

      已 知,采用化学计量学方法对近红外光谱进行分析时,可以选择全谱段、部分特征谱段或者谱峰的数据进行分析和建模。这里主要介绍如何在PP中提取光谱的谱峰特 征数据,并基于谱峰数据对光谱进行聚类,整个数据处理和分析过程可以分为四个部分(如图1所示):首先,通过相应的reader组件读取csv格式的原始 近红外光谱数据,并对光谱进行预处理操作(包括:去背景、光谱平滑等);其次,采用PP内置的功能组件“Peak Analysis”提取每张光谱图中的谱峰特征信息,并对谱峰数据进行标准化;再次,对谱峰数据表进行相似性矩阵的计算,生成谱峰相似性矩阵;最后,采用 PP内置的R工具箱中“自下而上”的层次聚类算法对谱峰相似性矩阵数据进行聚类分析,并输出每一张光谱的聚类结果详细列表和包含所有近红外光谱的聚类树形 图,其中光谱聚类结果如图2和图3所示。     
 
                      

图1. PP中计算光谱谱峰特征并进行聚类分析的流程图

图2. PP的“Peak Analysis”组件提取的谱峰特征信息列表

图3. 基于谱峰信息对光谱进行聚类分析的结果