探索性数据分析(EDA)的关键步骤及类型

数据科学领域在当今的商业世界中非常重要,因为它通过分析收集到的大量数据,为做出重要的商业决策提供了许多机会。要深入了解数据,就必须从各个角度对其进行研究。高效的操作能够做出有意义和有用的决策,因此,EDA在数据科学中发挥着不可估量的作用。

探索性数据分析的总体目标是产生有意义的见解,因此通常包括以下子目标:

识别和消除异常值;

提出假设并通过实验进行检验;

确定新的信息源.

EDA的关键要素是进行EDA所涉及的主要步骤。它们是

1.数据收集

2.发现并了解所有变量

3.清理数据集

5.选择合适的统计方法

正如我们在以下章节中所看到的,根据数据的大小、是分类数据还是数值数据、变量的类型以及分析的目的,可以使用不同的统计工具。应用于数值结果的统计公式可以提供必要的信息,但图形表示法更具吸引力,也更易于解释。

6.结果的可视化和分析

要掌握探索性数据分析,数据分析新手需要了解并实践上述欧空局数据科学步骤。了解有关数据科学训练营培训计划的更多信息。

在单变量分析中,结果是一个单一变量,所有收集到的数据都归于该变量。没有因果关系。例如,12个月的数据显示了每个月生产的产品。在二元分析中,结果取决于两个变量,例如工人的年龄,并与两个变量(即工人的工资和每月支出)进行比较。

1.一维非图形

这是实际使用的所有数据分析类型中最简单的一种。顾名思义,单变量是指只考虑一个变量,并收集和研究该变量(即所谓的总体)的数据。非图形单变量数据分析的主要目的是找出总体数据分布的细节,并了解一些特定的统计参数。从分布角度评估的重要参数如下:

中心倾向:这个术语指的是位于数据中心位置或中间区域的值。通常估算三个中心倾向参数:平均值、中位数和模式。均值是数据中所有值的平均值,而模式是出现次数最多的值。中位数是其左右两边观测值相等的平均值。

范围:范围是数据中最大值和最小值之间的差值,表示数据在顶部和底部偏离平均值的程度。

方差和标准差:另外两个有用的参数是标准差和方差。方差是一种离散度量,表示数据集中所有数据点的离散程度。它是最常用的离散度量,是每个数据点与平均值之间差值的平均平方,而标准差是标准差值的平方根。标准差的值越大,说明数据的离散程度越高,而标准差的值越小,说明有更多的值聚集在平均值附近。

2.一维图形

本节中的图表基于UCI数据库中的汽车MPG数据集。下面是一些常见的一维图表类型:

条形图和数字图:这是一种非常简单但功能强大的数据分析方法,用于以简洁的格式呈现定量数据。它表示数据集中的值,保持每个观测值的完整性,但将它们分开作为茎(起始数),其余或结束数作为叶。但如今条形图使用得更多。

条形图(柱形图):这些图表用于显示分组和未分组的数据。x轴显示变量的值,y轴显示观察次数或频率。条形图非常简单,可以快速了解数据,告知数据值,如中心倾向、方差、异常值等。条形图是最简单的基本图表,它是一个柱形图,其中每个柱形代表不同值的频率,即数量或比例(观察数与观察总数之间的比率)。

条形图有很多种,下面介绍其中的一些:

简单条形图:用于表示分类变量,使用矩形条,不同长度的条与变量值相对应。

多条形图或分组条形图:分组条形图是呈现多组数据项进行比较的条形图,其中使用一种颜色表示数据集中的特定系列。

百分比条形图:这种条形图以百分比的形式显示每个观测点的数据。下图显示的是带有虚拟值的百分比条形图。

饼图:用于显示数据中定量值的分布。如果数据集由分类变量组成,饼图可以显示它们之间的比较。此外,如果数据中有异常值,也可以很容易地识别出来。这些图表在需要以百分比的形式进行比较时非常有用,例如,25%、50%和75%(四分位数)范围内的数值。

3.无图表的多元图表

不带图表的多变量数据探索性分析技术通常用于使用交叉表或统计数据显示两个或多个变量之间的关系。

对于分类数据,制表法的扩展称为交叉制表法,非常有用。对于两个变量,交叉制表的方法是制作一个双面表,列标题对应于一个变量的编号,行标题对应于两个相反变量的编号,然后填写所有具有相同水平对的受试者的计数。

对于每个分类变量和定量变量,我们可以针对变量的每个水平分别生成定量变量的统计信息。

4.多元图形

在多元图形中,图形用于显示两个或多个变量之间的关系。在这里,结果取决于两个以上的变量,而引起变化的变量也可能不止一个。

常见的多元图形有以下几种:

(A)散点图

针对两个定量变量的基本EDA制图技术是散点图,其中一个变量在x轴上,另一个变量在y轴上,因此作为数据集中每个案例的点。这种方法可用于双变量分析。

B)多元图表

多变量图是一种控制图,用于控制两个或多个相互关联的过程变量。这在过程控制等情况下非常有用,工程师可以从使用多变量图表中受益。这些图表允许在一张图表上同时检查多个参数。使用多变量图的一个重要优势是,它们有助于最大限度地减少业务流程控制图的总数。使用Seaborn库创建的配对图就是多变量图的一个很好的例子,因为它们有助于一次性直观显示整个数据集中所有数字变量之间的关系。

C)执行图

D)气泡图

气泡图是一种散点图,在二维图表上显示几个圆(气泡)。它们用于评估三个或更多数字变量之间的关系。在气泡图中,每个点对应一个数据点,每个点的变量值以不同的位置显示,如水平、垂直、点的大小和点的颜色。

E)热图

除上述技术外,EDA还采用了"分类或聚类分析"技术。这是一种无监督的机器学习形式,用于将输入数据分类为某些类别或集群,这些类别或集群在不同组中表现出相似的特征。然后可用于在EDA中进行重要解释。

THE END
1.怎样对数据进行分析—数据分析的六大步骤时下的大数据时代与人工智能热潮,相信很多人都会对数据分析产生很多的兴趣,其实数据分析师是Datician的一种,指的是不同行业中,专门从事行业数据收集,整理,分析,并依据数据做出行业研究、评估和预测的专业人员。 很多人学习过数据分析的知识,但是当真正接触到项目的时候却不知道怎样去分析了,导致这样的原因主要是没有属...https://www.jianshu.com/p/01fb6f955764
2.财务数据分析的4个步骤通过以上对数据集的特点、质量和可用性的理解,为后续的数据清洗、建模分析等步骤打下坚实的基础。与业务团队的沟通,更能确保数据解释符合业务实际和预期目标。 三、数据清洗 在数据分析中,数据清洗是一个关键的过程,用于处理原始数据集中的不一致性、错误、重复项、缺失值等问题,使其更适合分析。以下是一些常用的数据...http://www.360doc.com/content/24/0607/07/78825344_1125540220.shtml
1.www.stats.gov.cn/zsk/snapshoot?reference=d466cfa12a8d807d0...知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=d466cfa12a8d807d0c267a76a75d1e42_BC0C3C82A36DB47D57F3B787239162EF&index=resource_data&qt=%E7%BB%9F%E8%AE%A1%E6%96%B9%E6%B3%95
2.数据分析流程包括哪些步骤综上所述,数据分析流程包括了问题定义、数据采集、数据探索和可视化、数据预处理和特征工程、建立模型和算法选择、模型评估和优化、模型应用和结果解释等七个步骤。 数据分析过程中需要使用的分析方法 在数据分析过程中,需要使用多种分析方法和技术,以从数据中提取有用的信息和洞察。下面介绍几种常见的数据分析方法和技...https://www.linkflowtech.com/news/1597
3.数据分析的六个步骤数据分析是一个复杂的过程,通常需要跟随一定的步骤来实现。以下是数据分析的六个步骤: 收集数据:数据收集是数据分析的第一步。数据可以来自多个来源,包括数据库、日志文件、调查问卷等等。数据的质量和准确性对后续的分析非常重要。 数据清理:数据清理是数据分析的第二步。在这个阶段,数据需要进行预处理,以消除缺失数据...https://www.parllay.cn/resources/36219.html
4.干货分享丨数据分析六大步骤简单来说分为以下六个步骤: 1?明确分析的目的,提出问题。只有弄清楚了分析的目的是什么,才能准确定位分析因子,提出有价值的问题,提供清晰的指引方向。 2?数据采集。收集原始数据,数据来源可能是丰富多样的,一般有数据库、互联网、市场调查等。具体办法可以通过加入“埋点”代码,或者使用第三方的数据统计工具。 https://m.douban.com/group/topic/271259657/
5.安全告警数据分析之道:一数据透视篇腾讯云开发者社区其中,认证类、目录遍历类和文件传输类的告警为数量占比前三的告警类型,三者之和可占总告警量的70%以上。除了少量的真实攻击,绝大部分的告警都是无害的,让我们抽丝剥茧,看看这些“奇葩”数据的真面目! 图2、安全告警数据数量和类型统计 3.2数据分析步骤https://cloud.tencent.com/developer/article/1833156
6.数据分析的工作流程的步骤是什么在数字化时代,数据分析已经成为企业获取竞争优势的关键。通过掌握数据,可以洞察市场趋势,优化业务流程,提高决策效率。那么,数据分析的工作流程的步骤是什么? 数据分析的工作流程共分为六个阶段: 一、业务需求处理 在开始任何数据分析项目之前,首先需要明确业务需求。这涉及到与业务部门的人员沟通,了解他们的问题和目标。https://www.pxwy.cn/school-2440/document-id-27822.html
7.spss数据分析操作步骤spss数据分析的几种方法spss数据分析操作步骤 spss数据分析的几种方法 3.1频数分析 频数分布分析主要通过频数分布表、条图和直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。 例如,要对数据文件做描述性统计分析,并绘制直方图,操作如下: (1)单击“分析”-“频率”,将弹出“频率”主对话框如下:...https://blog.51cto.com/u_16099314/9196439
8.数据分析完整流程一般包括哪几个环节/步骤王利头9. 监控和持续分析 数据分析是一个持续的过程,需要定期监控和持续分析。随着时间的推移,数据和业务环境的变化可能需要对分析流程进行调整。 总结 数据分析完整流程是一个多步骤的过程,包括定义目标、收集数据、探索性数据分析、选择分析方法、构建模型、解释结果、沟通和可视化、监控和持续分析。通过遵循此流程,企业可以...https://www.wanglitou.cn/article_16234.html
9.数据分析的5个步骤和阶段数据分析数据分析常见的5个步骤,更多下载资源、学习资料请访问CSDN文库频道https://download.csdn.net/blog/column/10745949/128165947
10.使用SPSS进行数据分析的步骤和技巧电脑知识数据分析是现代科学研究和商业决策中不可或缺的一环,而SPSS作为一款专业的统计分析软件,被广泛应用于各个领域。本文将介绍使用SPSS进行数据分析的步骤和技巧,帮助读者更好地利用SPSS进行数据分析,提高研究和决策的准确性和效率。 工具原料: 电脑品牌型号:Dell XPS 15 ...https://www.163987.com/jiaocheng/83066.html