化学信息学 - PP整合mRMR算法并用于化合物描述符的挑选与评价

时间:2014-11-04

参考文献:IEEE Trans Pattern Anal Mach Intell. 2005 Aug;27(8):1226-38.

文献链接:http://www.ncbi.nlm.nih.gov/pubmed/16119262/
 

      已知,mRMR特征挑选方法属于特征挑选技术中过滤类型的方法。由Peng等人最初用于分析蛋白质微阵列数据,并取得了较好的结果,随后mRMR的方法广泛用于生物信息学领域各类数据的特征挑选。mRMR程序的下载地址为http://penglab.janelia.org/proj/mRMR/

      同所有过滤类型的特征挑选方法一样,mRMR会根据特征的好坏对每种特征进行打分排序,排序的依据是特征与样本属性的关联以及各种特征之间的相关性的大小,打分靠前的特征被保留下来。mRMR特征挑选方法的具体操作步骤可以分为以下几个方面:首先特征之间的交互信息(mutual information, MI)理论被用于表示特征之间的相关性和冗余度,任意两种特征之间的交互信息以I来表示,MI的计算公式如下:

                                                                                   
    

      其中,xy是任意两个特征值,p(x,y)表示联合概率密度的大小,p(x)p(y)分别表示边缘概率密度。

      可假设以Ω表示整个原始的特征空间,将原始特征空间分为两个子集,以Ωα表示原始特征空间Ω中已经挑选的特征子集,Ωβ表示剩余的有待进一步挑选的特征子集,那么Ωβ特征空间内的任一特征f与目标属性θ之间的相关性R可以表示为:

                                                                                           

 

       同样,Ωβ特征空间内的任一特征fΩα特征空间内的所有特征之间的冗余度D的计算公式为:

                                                                                          

    

      最后,基于上述计算方法和假设,采用mRMR计算公式从待挑选的特征子集Ωβ中进一步挑选出具有最小冗余度和最大相关性的特征,直到遍历搜索所有特征。mRMR的计算公式如下:

                                                                               

 

      为了更方便的用于化合物描述符的挑选,我们采用PP整合了mRMR算法的源程序,作为如下图所示的一个组件进行直接拖拽式调用(如图1所示)。同时我们还以PP自带的MAO化合物数据为例,首先采用PP的“Calculate Properties”组件计算各种理化性质作为描述化合物活性的描述符,然后采用mRMR组件初步考察了10种不同的化合物理化性质,包括: ALogP、分子量、氢键供体数目和氢键受体数目等(相关protocol如图2所示)。经过mRMR算法挑选之后,我们可以初步对化合物的各类描述符对相应化合物的生物活性进行挑选与评价,评价结果如图3所示。


                               

图1 Pipeline Pilot中整合mRMR算法的功能组件及其参数示意图

图2 采用mRMR算法评价不同理化性质对MAO化合物数据活性影响的protocol示意图

|

图3 采用mRMR算法评价各种性质对MAO数据集的活性影响大小的评价结果