精工致善丨多元统计分析之PCA、PLS-DA、OPLS-DA
什么是PCA, PLS-DA、OPLS-DA?
◆主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的无监督分析方法,是一种多变量统计分析方法,又称主分量分析。可以初步了解各组样本之间的总体代谢物差异和组内样本之间的变异度大小,并可通过分析QC样本进行质量控制。
◆偏最小二乘法判别分析(Partial Least Squares Discrimination Analysis,PLS-DA)是一种有监督的判别分析方法,是多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。PLS-DA能按照预先定义的分类(Y变量)最大化组间的差异,获得比PCA更好的分离效果。
◆正交偏最小二乘判别分析( Orthogonal PLS-DA,OPLS-DA)是一种有监督的判别分析方法,是多变量统计分析方法。OPLS-DA综合了PLS-DA和正交信号过滤(orthogonal signal correction, OSC)技术,能够把与预先设定的和分类无关的信息最大程度从原始矩阵分离,从而将最相关的因素集中到第一个主成份上,进而寻找该主成分的正交矫正轴方向,从而使得组间样本分离效果更佳,使组内差异弱化,组间差异最大化凸显,且更适用于两组样本间的分离。PLS-DA可以用于两组及以上组别的分类比较,而OPLS-DA通常用于两组的对比,找差异物质。
如何进行PCA, PLS-DA、OPLS-DA分析?
1.进入在线分析软件
2.上传数据
数据类型选择浓度;数据格式选择样品在每一列(未配对),可根据实验数据实际情况选择样品在每一行或是每一列、配对或未配对实验;选择上传的文件,提交即可。
2.1上传文件格式说明
①有样本名和样本分组信息,文件格式需为制表符分割的TXT文件或逗号分割的CSV文件。
②靶标中不能有希腊字母α、β等,用alpha、beta等替换。
示例1:
2.2检查数据格式
检查数据格式,是否有非数值数据、缺失值或其它特殊字符和标点符号,默认将缺失值及零值替换为其对应变量的最小正值的1/5。
3.数据处理
3.1选择分析项目
4.图形解读
①PCA图形解读
碎石图(scree plot)即贡献率图,是希望图形一开始很陡峭,如悬崖一般,而剩下的数值都很小,如崖底的碎石一样。显示各主成分的特征值贡献率。如图中显示PC1贡献率为74.2%,PC2贡献率为11.1%...
PCA得分图有二维和三维两种展示形式,在二维得分图中横坐标PC1表示第一主成分,纵坐标PC2表示第二主成分,百分比表示该主成分对数据集的解释率,圆圈表示95%的置信区间;图中的每个点表示一个样品,同一个组的样品使用同一种颜色表示,Group为不同的分组;PCA得分图可以让我们非常直观地看出各个样本之间的相似性。例如在一张PCA得分图中,数个样本的点聚在一起,那么就说明这几个样本之间的相似性非常高,反之,如果几个样本的点非常分散,则说明这几个样本之间的相似性比较低。还可以看出组间是否有差异、QC样本是否稳定。
荷载图:把主成分1和主成分2的荷载点出一个二维图以直观的显示它们如何解释原来的变量的,这个图就叫做荷载图。每个点对应该物质对第一主成分和第二主成分的相关系数。相关系数的绝对值越大说明主成分对该变量的代表性越大。
第一、二、三主成分3D绘图在三维得分图中,增加了第三个主成分,此时X轴表示PC1,Y轴表示PC3,Z轴表示PC2。
根据主成分1和主成分2画出样本分布的散点图。横纵坐标是主成分,各个向量代表原特征。向量在主成分上的投影可以代表两者的相关程度。点之间的距离,反映它们对应的样本之间的差异大小,两点相距较远,对应样本差异大;两点相距较近,对应样本差异小,存在相似性。
②PLS-DA图形解读
VIP ( Variable Importance in Projection scores )变量重要性投影,通过变量投影重要度衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。通常以VIP值>1作为筛选标准。
交叉验证:R2是相关性系数,表示这个模型的拟合性好不好,是一个定量的测量(范围0-1),意味着所建立的模型能在多大程度上代表真实的数据,一般当R2在0.7,0.8表示模型解释能力较好。Q2表示PLS-DA模型的预测效果,一般Q2大于0.5表示预测能力较好,并且R2与Q2的值应该比较接近。
模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示100次permutation Test中100个模型的准确率的频数,箭头表示本PLS-DA模型准确率所在的位置。
③OPLS-DA图形解读
横坐标表示OSC过程中的主要成分的得分值( Tp ) ,所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO),所以从纵坐标上看出组内的差异(组内样本间的差异)。
S-plot图的横坐标表示主成份与代谢物的协相关系数,纵坐标表示主成份与代谢物的相关系数。
S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。
模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示100次permutation Test中100个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置。其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差。通常情况下, R2、Q2高于0.5较好,高于0.4即可接受。
从图中可以看出Q2为0.994 , R2Y为1 , R2X为0.685 , Q2和R2Y的P值均小于0.01,说明permutation Test中随机分组模型没有结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。
5.绘图平台
https://www.metaboanalyst.ca/
MetaboAnalyst是一个代谢组学数据分析的综合平台。在当前的MetaboAnalyst (V5.0)支持原始MS光谱处理、综合数据归一化、统计分析、功能分析、荟萃分析以及与其他组学数据的综合分析。