化学信息学 - Pipeline Pilot中基于糖类化合物的拉曼光谱数据建立贝叶斯分类模型

时间:2014-06-05

Pipeline Pilot中基于糖类化合物的拉曼光谱数据建立贝叶斯分类模型

      首先,使用PP中实验室分析仪器功能模块的拉曼光谱reader组件读取一组糖类化合的拉曼光谱作为训练集,以及这些糖类化合物的长度信息(单糖、二糖、寡糖和多糖)。其次,使用PP的光谱预处理组件对原始光谱进行包括:谱段选择、归一化、光谱插值拟合、光谱平滑以及背景扣除等光谱建模预处理操作。再次,通过“Peak Analysis”组件提取光谱的谱峰信息,并计算谱峰的指纹描述符作为建立贝叶斯分类模型的描述符特征。最后,调用PP内置的建模组件使用“Laplacian-modifiedBayesian categorization”方法建立贝叶斯模型并保存。整个建模过程的流程如图1所示。

      模型保存之后便可以利用已有模型对测试集光谱进行分类预测,由于建模时选择的分类特征为糖类化合物的长度归属,即单糖、二糖、寡糖还是多糖中的一种。如图2所示,即为基于已有模型对未知光谱的预测流程及结果示例。

图1.PP中读取拉曼光谱数据并生成贝叶斯模型文件的protocol

图2. 基于PP建立好的贝叶斯模型对糖类化合物进行分类预测的结果示例