数据科学领域在当今的商业世界中非常重要,因为它通过分析收集到的大量数据,为做出重要的商业决策提供了许多机会。要深入了解数据,就必须从各个角度对其进行研究。高效的操作能够做出有意义和有用的决策,因此,EDA在数据科学中发挥着不可估量的作用。
探索性数据分析的总体目标是产生有意义的见解,因此通常包括以下子目标:
识别和消除异常值;
提出假设并通过实验进行检验;
确定新的信息源.
EDA的关键要素是进行EDA所涉及的主要步骤。它们是
1.数据收集
2.发现并了解所有变量
3.清理数据集
5.选择合适的统计方法
正如我们在以下章节中所看到的,根据数据的大小、是分类数据还是数值数据、变量的类型以及分析的目的,可以使用不同的统计工具。应用于数值结果的统计公式可以提供必要的信息,但图形表示法更具吸引力,也更易于解释。
6.结果的可视化和分析
要掌握探索性数据分析,数据分析新手需要了解并实践上述欧空局数据科学步骤。了解有关数据科学训练营培训计划的更多信息。
在单变量分析中,结果是一个单一变量,所有收集到的数据都归于该变量。没有因果关系。例如,12个月的数据显示了每个月生产的产品。在二元分析中,结果取决于两个变量,例如工人的年龄,并与两个变量(即工人的工资和每月支出)进行比较。
1.一维非图形
这是实际使用的所有数据分析类型中最简单的一种。顾名思义,单变量是指只考虑一个变量,并收集和研究该变量(即所谓的总体)的数据。非图形单变量数据分析的主要目的是找出总体数据分布的细节,并了解一些特定的统计参数。从分布角度评估的重要参数如下:
中心倾向:这个术语指的是位于数据中心位置或中间区域的值。通常估算三个中心倾向参数:平均值、中位数和模式。均值是数据中所有值的平均值,而模式是出现次数最多的值。中位数是其左右两边观测值相等的平均值。
范围:范围是数据中最大值和最小值之间的差值,表示数据在顶部和底部偏离平均值的程度。
方差和标准差:另外两个有用的参数是标准差和方差。方差是一种离散度量,表示数据集中所有数据点的离散程度。它是最常用的离散度量,是每个数据点与平均值之间差值的平均平方,而标准差是标准差值的平方根。标准差的值越大,说明数据的离散程度越高,而标准差的值越小,说明有更多的值聚集在平均值附近。
2.一维图形
本节中的图表基于UCI数据库中的汽车MPG数据集。下面是一些常见的一维图表类型:
条形图和数字图:这是一种非常简单但功能强大的数据分析方法,用于以简洁的格式呈现定量数据。它表示数据集中的值,保持每个观测值的完整性,但将它们分开作为茎(起始数),其余或结束数作为叶。但如今条形图使用得更多。
条形图(柱形图):这些图表用于显示分组和未分组的数据。x轴显示变量的值,y轴显示观察次数或频率。条形图非常简单,可以快速了解数据,告知数据值,如中心倾向、方差、异常值等。条形图是最简单的基本图表,它是一个柱形图,其中每个柱形代表不同值的频率,即数量或比例(观察数与观察总数之间的比率)。
条形图有很多种,下面介绍其中的一些:
简单条形图:用于表示分类变量,使用矩形条,不同长度的条与变量值相对应。
多条形图或分组条形图:分组条形图是呈现多组数据项进行比较的条形图,其中使用一种颜色表示数据集中的特定系列。
百分比条形图:这种条形图以百分比的形式显示每个观测点的数据。下图显示的是带有虚拟值的百分比条形图。
饼图:用于显示数据中定量值的分布。如果数据集由分类变量组成,饼图可以显示它们之间的比较。此外,如果数据中有异常值,也可以很容易地识别出来。这些图表在需要以百分比的形式进行比较时非常有用,例如,25%、50%和75%(四分位数)范围内的数值。
3.无图表的多元图表
不带图表的多变量数据探索性分析技术通常用于使用交叉表或统计数据显示两个或多个变量之间的关系。
对于分类数据,制表法的扩展称为交叉制表法,非常有用。对于两个变量,交叉制表的方法是制作一个双面表,列标题对应于一个变量的编号,行标题对应于两个相反变量的编号,然后填写所有具有相同水平对的受试者的计数。
对于每个分类变量和定量变量,我们可以针对变量的每个水平分别生成定量变量的统计信息。
4.多元图形
在多元图形中,图形用于显示两个或多个变量之间的关系。在这里,结果取决于两个以上的变量,而引起变化的变量也可能不止一个。
常见的多元图形有以下几种:
(A)散点图
针对两个定量变量的基本EDA制图技术是散点图,其中一个变量在x轴上,另一个变量在y轴上,因此作为数据集中每个案例的点。这种方法可用于双变量分析。
B)多元图表
多变量图是一种控制图,用于控制两个或多个相互关联的过程变量。这在过程控制等情况下非常有用,工程师可以从使用多变量图表中受益。这些图表允许在一张图表上同时检查多个参数。使用多变量图的一个重要优势是,它们有助于最大限度地减少业务流程控制图的总数。使用Seaborn库创建的配对图就是多变量图的一个很好的例子,因为它们有助于一次性直观显示整个数据集中所有数字变量之间的关系。
C)执行图
D)气泡图
气泡图是一种散点图,在二维图表上显示几个圆(气泡)。它们用于评估三个或更多数字变量之间的关系。在气泡图中,每个点对应一个数据点,每个点的变量值以不同的位置显示,如水平、垂直、点的大小和点的颜色。
E)热图
除上述技术外,EDA还采用了"分类或聚类分析"技术。这是一种无监督的机器学习形式,用于将输入数据分类为某些类别或集群,这些类别或集群在不同组中表现出相似的特征。然后可用于在EDA中进行重要解释。