数据分享R语言用主成分PCA?逻辑回归决策树随机森林分析心脏病数据并高维可视化

在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。

我们使用心脏病数据(查看文末了解数据获取方式),预测急诊病人的心肌梗死,包含变量:

心脏指数

心搏量指数

舒张压

肺动脉压

心室压力

肺阻力

是否存活

其中我们有急诊室的观察结果,对于心肌梗塞,我们想了解谁存活下来了,以得到一个预测模型。但是在运行一些分类器之前,我们先把我们的数据可视化。

由于我们有7个解释变量和我们的因变量(生存或死亡),我们可以去做一个PCA。

添加死亡生存变量,就把它当作数字0,1变量。

点击标题查阅往期内容

左右滑动查看更多

01

02

03

04

结果不错,我们看到因变量与部分自变量是同向的。也可以可视化样本和类别

我们可以在这里推导出一个不错的分类器。至少,在前两个成分上投影时,我们可以看到我们的类别。现在,我们不能在前两个主成分上得到一个分类器并将其可视化吗?因为PCA是简单的基于正交投影的,所以我们可以(这里的数据是标准化的)。给定前两个分量平面上的两个坐标,给定我们的变换矩阵、归一化分量和一个分类器(这里是基于逻辑回归),我们可以回到原始空间,并对新数据进行分类。

PCA(X,ncp=ncol(X))function(d1,d2,Mat,reg){z=Mat%*%c(d1,d2,rep(0,ncol(X)-2))newd=data.frame(t(z*s+m))pred(reg,newd}逻辑回归现在考虑一个逻辑回归。只是为了简化(去掉非显著变量),我们使用一个逐步回归的程序来简化模型。

可视化等概率线(如个人有50%的生存机会)使用以下

xgrid=seq(-5,5,length=25)ygrid=seq(-5,5,length=25)zgrid=ter(xgrid,ygrid,p)然后,我们在之前的图形上添加一条等高线

结果不差,但我们应该可以做得更好。如果我们把所有的变量都保留在这里(即使它们不重要),会怎么样呢?

默认分类树

我们可以在此更改选项,例如每个节点的最小观察数

或者

要将该分类可视化,获得前两个成分的投影

也可以考虑这种情况

最后,我们还可以生成更多的树,通过采样获得。这就是bagging的概念:我们boostrap观测值,生长一些树,然后,我们将预测值进行汇总。在网格上

>for(iin1:1200){+indice=sample(1:nrow(MYOCARDE),+arbre_b=rpart(factor(是否存活)~.,+}>Zgrid=Z/1200可视化

最后,可以使用随机森林算法。

数据获取

在下面公众号后台回复“心脏病数据”,可获取完整数据。

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化》。

THE END
1.一文读懂主成分分析与因子分析(二)图表说明: 上表为因子分析的根据载荷系数等信息所做的主成分权重分析,其计算公式为:方差解释率/旋转后累积方差解释率。 结果分析:因子的权重计算结果显示,因子 1 的权重为 66.9%、因子 2 的权重为 27.396%、因子 3 的权重为 4.625%、因子 4 的权重为 0.576%、因子 5 的权重为 0.503%。 https://developer.aliyun.com/article/1241967
2.主成分分析法案例3篇.doc主成分分析法案例3篇.doc,主成分分析法案例3篇 篇一:主成分分析法及案例分析 在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标上,第二大方差在第二个坐标上,依次类https://max.book118.com/html/2017/0116/84478429.shtm
3.学术前沿与此不同,当下的犯罪率研究,不是用多个自变量解释一个已知的因变量,而是从多个变量中提炼、浓缩共性,前提是多个变量之间存在共性。降维分析中的主成分分析法和因子分析法恰好适合解决此类问题。不过,作为第一次尝试,采用降维分析方法研究犯罪率出来的结果应该不再是每十万人口中的全部或某类案件数或人数,而是多个具体...http://www.zgfzxxh.com/xsqy/202204/t20220411_3620737.shtml
1.简单例子弄懂主成分分析主成分分析法举例但我们发现,可能数学和物理成绩往往有较强的相关性,英语和语文成绩也有一定的关联。 这时我们使用主成分分析(PCA),它会找到新的“综合科目”,也就是主成分。比如第一个主成分可能综合反映了学生的理科思维能力,与数学和物理成绩的关系较大;第二个主成分可能综合反映了学生的语言能力,与英语和语文成绩关系较大。https://blog.csdn.net/Llcm3030zzstj81/article/details/141691418
2.数学建模暑期集训21:主成分分析(PCA)腾讯云开发者社区主成分分析指标解释案例 主成分分析的一大难点是指标意义模糊,难以解释,下面这个例子可以辅助理解。 上表的累计贡献率 = 当前项贡献率 + 之前的累计贡献率。当累计贡献率 > 80%时,剩下的特征向量可以舍弃。 上面的分析需要一定的语言组织能力,也需要一定运气成分,若难以解释,或者强行解释,或者换方法。 https://cloud.tencent.com/developer/article/2022167
3.常用:主成分分析和因子分析的原理,操作,代码和案例讲解!今天,分享《主成分分因子分析的原理, 操作, 代码和案例讲解》,全文分为两个部分,分别对应着主成分分析和因子分析。 1.主成分分析 PCA analysis 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的...https://www.shangyexinzhi.com/article/5113763.html
4.数学建模暑期集训21:主成分分析(PCA)51CTO博客主成分分析指标解释案例 主成分分析的一大难点是指标意义模糊,难以解释,下面这个例子可以辅助理解。 上表的累计贡献率 = 当前项贡献率 + 之前的累计贡献率。当累计贡献率 > 80%时,剩下的特征向量可以舍弃。 上面的分析需要一定的语言组织能力,也需要一定运气成分,若难以解释,或者强行解释,或者换方法。 主成分分析...https://blog.51cto.com/u_15762365/5612135
5.转录组专题转录组结题报告解读+文章撰写描述主成分分析(Principal Component Analysis,PCA)是一种无监督模式识别的多维数据统计分析方法,用来判断组内样本的重复性和组间样本的差异。 图2.样本的PCA图 2.3 gene_expression.annot所有样本比对上的所有基因及注释信息 包括基因ID,基因的FPKM值,基因的counts值,以及在不同数据库的注释信息,这个表是所有后续差异基因...https://www.antpedia.com/news/wx_article/752184.html
6.解释主成分分析的主要结果解释主成分分析的主要结果 了解关于 Minitab 的更多信息 请完成以下步骤来解释主分量分析。主要输出包括特征值、分量解释的方差比率、系数和几个图形。 关于本主题 步骤1:确定主分量数 步骤2:根据原始变量解释每个主分量 步骤3:标识异常值 步骤1:确定主分量数 ...https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/principal-components/interpret-the-results/key-results/
7.路噪问题的诊断与优化振动与噪声而参考车内噪声进行主成分分析时,解耦出来的特征基本与目标点噪声直接相关,所以基本上一到两个主成分即可完成拟合,更加方便我们的数据处理分析,同时也更能体现NVH问题。 本案例分析结果如下: 图5 以车内噪声为参考的PCA分析结果 根据图 5所示,车内噪声主要峰值基本均由第一阶主成分拟合而成,所以该阶主成分将被...https://www.auto-testing.net/news/show-106120.html
8.主成分分析(PCA)原理详解及案例分析主成分分析(PCA) 假设我们一组二维数据点如图(1)所示,我们可以看出这两个维度具有很高的相似性,也就是说两个维度之间具有很高的冗余性,如果我们只想保留一个维度,那么该怎么选择才能尽可能多的保留原始数据的信息呢。我们先对数据进行归一化处理,得到的数据点如图(2)所示。然后将数据点映射到另一个新的空间,如图...https://www.pianshen.com/article/65462319392/
9.文化与自然灾害对四川居民保护旅游地生态环境行为的影响对价值观量表、生态环境信念观量表、保护旅游地生态环境行为量表和灾害后果认知及个人规范量表分别进行探索性因子分析(主成分分析法、最大方差旋转、特征值>1)。所有测量量表信度>0.60,效度>0.55表示量表内在信度和效度较好(表 1);同时所有指标因子载荷>0.50,表明不需要剔除任何题项。经探索性因子分析后得到7个因子,由...https://www.ecologica.cn/stxb/ch/html/2014/17/stxb201301090075.htm
10.探索性因子分析(ExploratoryFactorAnalysis)——SPSS软件实现...EFA分析的主要目的之一是通过选取的主成分因子(维度)对数据进行降维,但同时也要注意应尽可能多的包含对数据变异的解释。 1. 软件操作 在“因子分析”(图7)页面,点击“确定”,输出结果如表7所示。 表7 2. 结果解读 在表7“总方差解释”表格中,每个主成分因子(维度)的解释率都>5%,累计方差解释率为58.188%。https://mengte.online/archives/13442