数据分析
多变量统计方法可以达到降维的目的,并且不受变量多重共线性的限制。
谱图经过一定的前处理,然后进行分段积分,通常一张谱图会分成上千个积分段,每一段就是一个变量,每个样本的特征就由这些变量来共同定义的。
在积分数据用于多变量分析之前,先要对数据进行归一化(normalization)和标准化(scaling)处理。
代谢组学数据分析中常用的多变量统计分析方法主要包括主成分分析(principal component analysis,PCA),偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)和正交化偏最小二乘判别分析(orthogonal projection to latent structure discriminant analysis,OPLS-DA)。
在代谢组学研究中,由于样本量有限,通常使用内部验证方法对模型的有效性进行检验。常用的内部验证方法有交叉验证(cross-validation,CV)、排列实验(permutation test)和CV-ANOVA(varianceanalysis of the cross-validated residuals)。
经过验证确实有效的模型,可以通过提取其第一主成分找到对组间区分贡献大的变量,即发生显著性变化的代谢物。变量是否对组间区分有显著性贡献通过变量与第一主成分得分值的Pearson 相关系数r 来确定,根据样本量和r 临界值表来确定P < 0.05 时具有统计学显著性的临界值。第一主成分的载荷(loading)经过回溯转换,采用Matlab 软件等可以绘制出相关系数负载图。