Nature子刊:什么是主成分分析(PCA)?pca主成分方差样本横坐标

小编最近阅读文献的时候,发现了一篇由Markus发表在NatureBiotechnology上的论文[1],名为《Whatisprincinpalcomponentanlaysis?》,对于想要了解什么是主成分分析(PCA)的朋友们也许会有帮助。

那什么是PCA?

PCA是一种数学算法,可用于降低数据的维度,但同时尽可能保留原有数据的统计信息[2]。

而面对这样的数据,不管是统计分析还是作图都非常有挑战性。

假如样本分为疾病组和正常组,用t检验一个一个的进行分组比较,会大大增高假阳性的风险(也称为TypeI错误])。同时,面对这么多的变量,作图也无从下手。

所以,如果可以将变量从几百或几千降到几个,同时又不丢失数据信息的话,对之后的数据探索以及作图都大有帮助,而PCA是数据降维方法中最经典以及被广泛使用的一种。

读懂六张图,助你基本入门PCA

论文作者[1]以乳腺癌方面的研究为例子。

首先,看第一张图:

论文作者[1]举了一个最简单的例子,假设只检测了两个基因的表达水平:GATA3和XBP1。通过上述的两个变量,就可以画出散点图,图中的点即是不同的样本。

上述的样本又被进一步的分为雌激素受体阳性(红色)和阴性(黑色)。从上可知,雌激素受体阳性的样本主要分布在图片的右上角,即GATA3和XBP1的表达水平都比较高的地方。

这样的散点图,应该非常容易理解。

好了,第一步顺利完成。

再看第二张图:

那它是如何找到第一个主成分(PC1)的呢?

通过将点到PC1的垂直距离最小化,投射到PC1上的点的分布将会越广越散开,即达到方差最大化。从上图来说,这条直线接近对角线。

寻找PC2的方式非常类似,但要加上一点,PC2不能和PC1有关,也就是要求它们之间的关系是正交的(orthogonal)。

如果说上述的解释不好理解,那可以这么想:PC1和PC2其实并没有改变数据的本身,而是经过数学转换后,通过不同的角度看数据。

有点“横看成岭侧成峰”的意思,但庐山还是庐山。

将高维度的数据降维后,就可以选择PC1和PC2作为新的变量,用于后续数据的探索,作图和分析。

第三张图:

如上图,可以将所有样本(点)投射到PC1上,后续将PC1作为新的变量,数据就从原来的二维降成了一维。

第四张图:

前面的例子仅含有两个基因。

之后为了进一步说明,作者纳入105个样本,检测了8534个基因的表达水平,再进行了PCA分析。

我们发现,前面两个PCs(PC1和PC2)加起来大概可以解释数据方差的22%,前面63个PCs加起来可以解释数据方差的90%,而104个PCs几乎就可以解释100%的方差了[1]!

因此,PCA可以大大降低数据的维度(8634→104),同时并没有丢失数据的信息。

第五张图:

第五张图为“Biplot”,可以描述在PCs的体系中不同样本之间的关系(比如,哪些样本比较类似,哪些样本差异较大等信息)以及不同变量(这里指的是基因)对PCs的贡献度(也称为权重)。

因为每个基因的表达水平都对PCs的计算做出了一定的贡献,所以上图可以用它们的权重(weights)进行作图。

后面实战部分,会在R中重复作出biplot图。

第六张图:

上图中的棕色指的是ERBB2-,蓝色指的是ERBB2+,绿色指的是ERBB2状态不明。

而在上图中,ERBB2状态不同的样本存在大量重叠,并不能将数据很好的进行分类。

作者使用上图的目的主要在于提醒大家:PCA本质上是一种数据降维以及将数据方差(或数据的信息)最大化的方法,并不是一种用于识别潜在亚组或用于分类的方法,至少不是那么有效。

PCA实战

好了,进入大家最喜欢的实战部分了!

主要是重复上述的第4张和第5张图片。

首先,安装PCA作图的包:

install.packages("factoextra")library(factoextra)

查看数据“iris”:

summary(iris)

因为我们需要使用“iris”中的前四个连续变量进行PCA分析,所以将Species从数据中剔除后保存到新的数据集iris_reduced中:

iris_reduced<-iris[,-5]

PCA分析:

从上述结果可知,一共有4个主成分(PCs),PC1可以解释73%的信息,PC2可以解释22.9%的信息,所以PC1加上PC2可以解释95.9%的信息。如果使用PC1和PC2两个新变量的话,那就可以将数据中的变量从4个降到2个,还保留了数据的大部分信息。

也可以制作screeplot(上面的图4),更加直观的显示PCs能够解释的信息百分比:

fviz_eig(iris_pca,barfill="aquamarine3",#修改颜色barcolor="aquamarine3")#修改颜色

制作biplot(即上述的图5):

fviz_pca_biplot(iris_pca,label="var",#显示4个变量名ggtheme=theme_minimal())+labs(x="PC1(73%)",y="PC2(22.9%)")

还可以将“iris”中本身的类别标签(Species)在上图中显示出来:

fviz_pca_biplot(iris_pca,label="var",habillage=iris$Species,#添加组别的标签addEllipses=TRUE,#用椭圆形圈出相同组别的样本ellipse.level=0.95,palette="aaas",#修改颜色ggtheme=theme_minimal())+labs(x="PC1(73%)",y="PC2(22.9%)")+theme(legend.position=c(0.9,0.9))

好啦,今天的内容就到这里。

参考文献

[1].WhatisprincipalcomponentanalysisRingnérM,NatBiotechnol.2008Mar;26(3):303-4.

[2].Jolliffe,I.T.PrincipalComponentAnalysis(Springer,NewYork,2002).

【单体药理-Gut-if19.819】顶级研究团队联合揭示人参多糖可增强免疫疗法的抗肿瘤作用

2021-05-25

药理动物实验的这些问题你考虑到了吗-审稿老师问到我们应如何回复

2021-05-26

收藏!推荐几个素材库网站—图文摘要/基金流程图等或许有用

2021-05-24

【单体药理-IF13+】又添新作用!协和等团队揭示小檗碱调节肠脑轴治疗帕金森病

2021-05-21

全球前2%顶尖科学家榜单发布,200名中国药学学者入选(附名单)

2021-05-19

2021-05-16

【复方网药+代谢-专题头条】黄连解毒汤的抗抑郁活性通过网络药理和代谢组学分析

2021-05-15

中医临床疗效明确的经典复方为啥还要研究其作用及机制-以葛根芩连汤为例简单聊聊

THE END
1.一文读懂主成分分析与因子分析(二)图表说明: 上表为因子分析的根据载荷系数等信息所做的主成分权重分析,其计算公式为:方差解释率/旋转后累积方差解释率。 结果分析:因子的权重计算结果显示,因子 1 的权重为 66.9%、因子 2 的权重为 27.396%、因子 3 的权重为 4.625%、因子 4 的权重为 0.576%、因子 5 的权重为 0.503%。 https://developer.aliyun.com/article/1241967
2.主成分分析法案例3篇.doc主成分分析法案例3篇.doc,主成分分析法案例3篇 篇一:主成分分析法及案例分析 在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标上,第二大方差在第二个坐标上,依次类https://max.book118.com/html/2017/0116/84478429.shtm
3.学术前沿与此不同,当下的犯罪率研究,不是用多个自变量解释一个已知的因变量,而是从多个变量中提炼、浓缩共性,前提是多个变量之间存在共性。降维分析中的主成分分析法和因子分析法恰好适合解决此类问题。不过,作为第一次尝试,采用降维分析方法研究犯罪率出来的结果应该不再是每十万人口中的全部或某类案件数或人数,而是多个具体...http://www.zgfzxxh.com/xsqy/202204/t20220411_3620737.shtml
1.简单例子弄懂主成分分析主成分分析法举例但我们发现,可能数学和物理成绩往往有较强的相关性,英语和语文成绩也有一定的关联。 这时我们使用主成分分析(PCA),它会找到新的“综合科目”,也就是主成分。比如第一个主成分可能综合反映了学生的理科思维能力,与数学和物理成绩的关系较大;第二个主成分可能综合反映了学生的语言能力,与英语和语文成绩关系较大。https://blog.csdn.net/Llcm3030zzstj81/article/details/141691418
2.数学建模暑期集训21:主成分分析(PCA)腾讯云开发者社区主成分分析指标解释案例 主成分分析的一大难点是指标意义模糊,难以解释,下面这个例子可以辅助理解。 上表的累计贡献率 = 当前项贡献率 + 之前的累计贡献率。当累计贡献率 > 80%时,剩下的特征向量可以舍弃。 上面的分析需要一定的语言组织能力,也需要一定运气成分,若难以解释,或者强行解释,或者换方法。 https://cloud.tencent.com/developer/article/2022167
3.常用:主成分分析和因子分析的原理,操作,代码和案例讲解!今天,分享《主成分分因子分析的原理, 操作, 代码和案例讲解》,全文分为两个部分,分别对应着主成分分析和因子分析。 1.主成分分析 PCA analysis 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的...https://www.shangyexinzhi.com/article/5113763.html
4.数学建模暑期集训21:主成分分析(PCA)51CTO博客主成分分析指标解释案例 主成分分析的一大难点是指标意义模糊,难以解释,下面这个例子可以辅助理解。 上表的累计贡献率 = 当前项贡献率 + 之前的累计贡献率。当累计贡献率 > 80%时,剩下的特征向量可以舍弃。 上面的分析需要一定的语言组织能力,也需要一定运气成分,若难以解释,或者强行解释,或者换方法。 主成分分析...https://blog.51cto.com/u_15762365/5612135
5.转录组专题转录组结题报告解读+文章撰写描述主成分分析(Principal Component Analysis,PCA)是一种无监督模式识别的多维数据统计分析方法,用来判断组内样本的重复性和组间样本的差异。 图2.样本的PCA图 2.3 gene_expression.annot所有样本比对上的所有基因及注释信息 包括基因ID,基因的FPKM值,基因的counts值,以及在不同数据库的注释信息,这个表是所有后续差异基因...https://www.antpedia.com/news/wx_article/752184.html
6.解释主成分分析的主要结果解释主成分分析的主要结果 了解关于 Minitab 的更多信息 请完成以下步骤来解释主分量分析。主要输出包括特征值、分量解释的方差比率、系数和几个图形。 关于本主题 步骤1:确定主分量数 步骤2:根据原始变量解释每个主分量 步骤3:标识异常值 步骤1:确定主分量数 ...https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/principal-components/interpret-the-results/key-results/
7.路噪问题的诊断与优化振动与噪声而参考车内噪声进行主成分分析时,解耦出来的特征基本与目标点噪声直接相关,所以基本上一到两个主成分即可完成拟合,更加方便我们的数据处理分析,同时也更能体现NVH问题。 本案例分析结果如下: 图5 以车内噪声为参考的PCA分析结果 根据图 5所示,车内噪声主要峰值基本均由第一阶主成分拟合而成,所以该阶主成分将被...https://www.auto-testing.net/news/show-106120.html
8.主成分分析(PCA)原理详解及案例分析主成分分析(PCA) 假设我们一组二维数据点如图(1)所示,我们可以看出这两个维度具有很高的相似性,也就是说两个维度之间具有很高的冗余性,如果我们只想保留一个维度,那么该怎么选择才能尽可能多的保留原始数据的信息呢。我们先对数据进行归一化处理,得到的数据点如图(2)所示。然后将数据点映射到另一个新的空间,如图...https://www.pianshen.com/article/65462319392/
9.文化与自然灾害对四川居民保护旅游地生态环境行为的影响对价值观量表、生态环境信念观量表、保护旅游地生态环境行为量表和灾害后果认知及个人规范量表分别进行探索性因子分析(主成分分析法、最大方差旋转、特征值>1)。所有测量量表信度>0.60,效度>0.55表示量表内在信度和效度较好(表 1);同时所有指标因子载荷>0.50,表明不需要剔除任何题项。经探索性因子分析后得到7个因子,由...https://www.ecologica.cn/stxb/ch/html/2014/17/stxb201301090075.htm
10.探索性因子分析(ExploratoryFactorAnalysis)——SPSS软件实现...EFA分析的主要目的之一是通过选取的主成分因子(维度)对数据进行降维,但同时也要注意应尽可能多的包含对数据变异的解释。 1. 软件操作 在“因子分析”(图7)页面,点击“确定”,输出结果如表7所示。 表7 2. 结果解读 在表7“总方差解释”表格中,每个主成分因子(维度)的解释率都>5%,累计方差解释率为58.188%。https://mengte.online/archives/13442