主成分分析(parincipalcomponentanalysis,PCA)
#对USAests数据集进行PCA,PCA包肯在基础软件包中。
结果分析:数据显示强奸案平均发生次数是谋杀案的3倍,袭击案平均发生次数是强奸案的8倍以上,变量的均值差异很大。
结果分析:变量的方差之间存在着较大的差异,。如果不对变量标准化就进行PCA,就会导致大多数主成分会出Assault一个变量所决定,因为Assault变量的均值和方差明显是最大的。因此,在进行PCA之前对变最进行标准化处理是非常必要的。
结果分析:center和scale表示在实施PCA之前进行标准化以后变量的均值和标准差,rotation矩阵提供了主成分载荷信息。
结果分析:可以看到有4个不同的主成分,因为在一个有n个观测和p个变量的数据集中一般有min(n-1,p)个信息量在较大的主成分。第二主成分向量PC2在UrbanPop上有较大权重,在其他3个变量上权重较小,因此,这个主成分大致刻画了每个州的城市化水平。
#主成分有一个性质是:在符号可变的意义下唯一,所以可以通过一些小的改变重新绘制
结果分析:可以看到第一主成分解释了数据中62%的方差,第二主成分解释了数据中24.7%的方差。
#计算累计和的例子
案例1:NCI60数据集的应用
#NCI60数据集由64个细胞系的6830个基因表达数据构成,每个细胞系都有一个标签变量记录了其癌细胞的类型
结果分析:。从图上来看,对应于同类癌症的细胞在前几个主成分得分向量上的值确实更接近,这表明间一类癌症的细胞系往往有非常相似的基因表达水平。
结果分析:,在柱形图中,每个柱子的高度是pr.out$sdev相应元索的平方。
结果分析:前7个主成分一共解释了数据大约40%的方差,但这个比例还不够大。然而,通过碎石图观察发现前7个卖成分中每一个都解释了大量方差,而之后的主成分对方差的解释作用明显下降,即大约在碎石图中的第7个主成分的位置量有一个肘。这表示没有必要考虑7个以上的主成分(尽管对7个主成分分析也已经很有挑战了)。