精工致善丨多元统计分析之PCA、PLS-DA、OPLS-DA
什么是PCA,PLS-DA、OPLS-DA?
◆主成分分析(PrincipalComponentAnalysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的无监督分析方法,是一种多变量统计分析方法,又称主分量分析。可以初步了解各组样本之间的总体代谢物差异和组内样本之间的变异度大小,并可通过分析QC样本进行质量控制。
◆偏最小二乘法判别分析(PartialLeastSquaresDiscriminationAnalysis,PLS-DA)是一种有监督的判别分析方法,是多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。PLS-DA能按照预先定义的分类(Y变量)最大化组间的差异,获得比PCA更好的分离效果。
如何进行PCA,PLS-DA、OPLS-DA分析?
1.进入在线分析软件
2.上传数据
数据类型选择浓度;数据格式选择样品在每一列(未配对),可根据实验数据实际情况选择样品在每一行或是每一列、配对或未配对实验;选择上传的文件,提交即可。
2.1上传文件格式说明
①有样本名和样本分组信息,文件格式需为制表符分割的TXT文件或逗号分割的CSV文件。
②靶标中不能有希腊字母α、β等,用alpha、beta等替换。
示例1:
2.2检查数据格式
检查数据格式,是否有非数值数据、缺失值或其它特殊字符和标点符号,默认将缺失值及零值替换为其对应变量的最小正值的1/5。
3.数据处理
3.1选择分析项目
4.图形解读
①PCA图形解读
碎石图(screeplot)即贡献率图,是希望图形一开始很陡峭,如悬崖一般,而剩下的数值都很小,如崖底的碎石一样。显示各主成分的特征值贡献率。如图中显示PC1贡献率为74.2%,PC2贡献率为11.1%...
PCA得分图有二维和三维两种展示形式,在二维得分图中横坐标PC1表示第一主成分,纵坐标PC2表示第二主成分,百分比表示该主成分对数据集的解释率,圆圈表示95%的置信区间;图中的每个点表示一个样品,同一个组的样品使用同一种颜色表示,Group为不同的分组;PCA得分图可以让我们非常直观地看出各个样本之间的相似性。例如在一张PCA得分图中,数个样本的点聚在一起,那么就说明这几个样本之间的相似性非常高,反之,如果几个样本的点非常分散,则说明这几个样本之间的相似性比较低。还可以看出组间是否有差异、QC样本是否稳定。
第一、二、三主成分3D绘图在三维得分图中,增加了第三个主成分,此时X轴表示PC1,Y轴表示PC3,Z轴表示PC2。
②PLS-DA图形解读
VIP(VariableImportanceinProjectionscores)变量重要性投影,通过变量投影重要度衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。通常以VIP值>1作为筛选标准。
模型验证permutationTest图的横坐标表示模型的准确率,纵坐标表示100次permutationTest中100个模型的准确率的频数,箭头表示本PLS-DA模型准确率所在的位置。
③OPLS-DA图形解读
横坐标表示OSC过程中的主要成分的得分值(Tp),所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO),所以从纵坐标上看出组内的差异(组内样本间的差异)。
模型验证permutationTest图的横坐标表示模型的准确率,纵坐标表示100次permutationTest中100个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置。其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差。通常情况下,R2、Q2高于0.5较好,高于0.4即可接受。
从图中可以看出Q2为0.994,R2Y为1,R2X为0.685,Q2和R2Y的P值均小于0.01,说明permutationTest中随机分组模型没有结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。
5.绘图平台
MetaboAnalyst是一个代谢组学数据分析的综合平台。在当前的MetaboAnalyst(V5.0)支持原始MS光谱处理、综合数据归一化、统计分析、功能分析、荟萃分析以及与其他组学数据的综合分析。