带你读《增强型分析:AI驱动的数据分析业务决策与案例实践》之二:大数据探索及预处理

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

现在几乎人人都在谈论大数据和人工智能,然而应用大数据和人工智能技术的基本前提是数据。不论数据的拥有方还是数据分析解决方案及工具的提供方,其终极目标都是“通过数据分析,从数据中找出洞见并应用于实际场景中带来价值”。数据探索、数据预处理等工作是进行数据分析的首要工作。不论是采用大数据的工具还是采用相对较小的数据集上的数据挖掘的工具,模型的构建都需要经过对数据不断地探索、选择和加工合适的字段、采用合适的算法并训练模型等过程。数据探索的目的是了解数据的状态,数据预处理则是为了将数据加工为更有价值的形态。数据分析者应当具有很好的意识,能够感知数据的价值,具备数据加工能力。

大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。

表2-1均值、中位数、众数的例子

表2-2四分位的例子

图2-1箱形图及IQR

图2-2Skewness的含义

图2-3众数、均值及中位数在不同分布下的比较

表2-3通过中位数和均值的差异来判断分布的偏斜情况

图2-4峰态的例子

表2-4连续型变量数据探索示例代码的运行结果

表2-5分类型变量数据探索示例代码的运行结果

表2-6BankMarketingDataSet的字段说明

图2-5折线图的示例

图2-6箱形图的示例

图2-7柱状图示例

图2-8双变量关系探索的示例(X轴是age变量,Y轴是balance变量)

数据的重要性在大多数情况下都超过了算法的重要性。数据预处理是数据分析过程中的一个重要步骤。多年以来,人们在数据质量上的持续投入大幅减少了越界、缺失、不一致等问题。但是,数据质量问题仍然存在。数据分析者应当对数据质量时刻保持警惕,因为质量很差的数据是很难得到有用的分析结果的。既然数据质量问题不可避免,那么处理它们是数据预处理的工作之一。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。

图2-10数据空白值填充的示例

图2-11分别执行数据预处理的3个条件,查看触发条件

对于连续型变量,如果该变量的取值的个数小于设定阈值(默认是5),那么将该变量转化为有序型分类变量。对于有序型分类变量(数值类型),如果该变量的类型的个数大于设定阈值(默认是10),那么将该变量转化为连续型变量。1.连续型变量的变换对于连续型变量,为了保证数据中不同的字段保持同样的尺度(这样既可以防止某些字段在建模过程中发生溢出,又可以保证每一个字段在模型中的权重相同),我们需要进行一些尺度变换的操作。分箱(binning,又称离散化)是将连续型数据转换为分类型变量,转换的目的是提高变量的解释性。(1)尺度变化为了使数据尺度一致,可以对原始数据进行中心化、标准化、归一化、Z-score变换、最小-最大值变换等。在表2-7中我们列举了典型的数据转换方法。(2)分箱变换对于一些连续型变量,从业务和数据特点上考虑,需要将连续型数据变为分类型数据,可以进行binning操作,常用的分箱变换方法如表2-8所示。分箱技术的方法有很多种,比较常用的有下面的3种方式:

表2-7典型的数据转化方法

表2-8分箱变换方法

图2-12采用中位数对连续型变量进行划分

图2-13很多情况下,低价值的客户总是占多数

图2-14按照80%-20%的划分能够将高价值的客户显著区分出来

表2-93种分箱策略的结果示例

图2-15源数据分布及3种分箱策略的结果示例

表2-10分类型变量的变换

表2-11分类型变量的变换为dummy字段

表2-12员工个人信息的示例

图2-16模型的残差分布

图2-17由一个衍生字段代表原来10列数据的信息

图2-18因变量的分布

图2-19因变量做对数转变后的分布

图2-20数据采样的一般过程

图2-21典型的采样类型

概率抽样适用的场景是采用样本数据来体现整体的特征,包括以下几种:

非概率抽样都是按照抽样者的意愿来进行的,典型的方式有以下几种:

图2-22两个样本、总体的关键指标的分布

在探索了数据的基本统计信息后,我们掌握了数据的分布特征等信息;接着又对数据做了预处理,过滤了缺失值和离群值,转变和处理了数据类型,提高了数据的质量。本节进一步对数据从字段上进行加工,从尺度、分布上进行变换,满足不同的业务和建模需要,变换后的字段更能满足模型需要,由此引出了本节的衍生指标的加工。

图2-23一个SAS决策树算法生成的模型结果

从实际业务指导的角度来看,分类型变量的易用性远远大于数值型变量。从模型算法的角度来看,采用数值型的指标会显著提高模型的性能。针对“富裕客户”这样的指标值,在建模时为模型性能考虑,最好是将其代表的数值直接使用而摈弃分类型变量。

THE END
1.SPSS数据分析实例.pptSPSS数据分析实例 :某克山病区测得11例克山病患者与13名健康人的oup两个框内分别输入1和2,点击ok 结果浏览窗口两组的基本情况描述和t检验结果 上面是方差齐性检验,用于判断两总体方差是否齐;第二部分分别给出两组所在总体方差齐和不齐时的t检验结果 https://www.taodocs.com/p-735739326.html
2.SPSS数据分析实例详解20240110172242.pdfSPSS数据分析实例详解.pdf 137页VIP内容提供方:微传科技 大小:23.79 MB 字数:约15.94万字 发布时间:2024-01-13发布于河北 浏览人气:120 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)SPSS数据分析实例详解.pdf 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线...https://m.book118.com/html/2024/0110/7015126003006030.shtm
3.SPSS行业案例SPSS数据分析软件行业案例本文将介绍SPSS描述性分析怎么剔除没用的数据,SPSS描述性分析怎么看分析结果的相关内容。 2024-11-25 SPSS数据降维是什么意思 SPSS数据降维方法 SPSS是一款功能强大的,应用范围广泛的统计分析软件,支持用户的多样化操作,支持数据分析、数据统计和数据可视化等功能。很多用户在使用SPSS时可能会遇到不知道SPSS数据降维是...https://spss.mairuan.com/hangye/
4.数据科学实战第2 章 统计推断、探索性数据分析和数据科学工作流程 在本章,我们首先讨论统计推断和统计学的思考方式,然后我们将目光转向每一位数据科学家都会从事的工作:探索性数据分析。我们还将详细了解研究数据科学的工作流程,在本章的结尾,是我们的“思维实验”环节和一个案例学习。 https://www.ituring.com.cn/book/tupubarticle/512
5.手把手教你操作Tableau——真实公司数据分析项目实例(完整详细...1.打开tableau,将所需要的的数据导入到tableau中 2.数据源连接这边可以看到tableau可以连接多种文件格式和数据库 3.tableau中对数据文件的两种处理方式有实时live和提取extract 实时连接的好处是直接连接的是数据源,如果数据源(excel或者SQL类数据库)发生变化,tableau里的数据也会相应的自动调整 坏处在于实时的速度会随着...https://blog.nowcoder.net/n/40fb3adebfb648e0a3e91f3fa6b9a7fb
1.精选30个数据分析案例,建议收藏!腾讯云开发者社区这就涉及到,你必须要有思维能力,去支撑你在看到数据时,会从多维度去分析,而不是只看到表面数字这么简单而已,否则就是抓瞎。 数据时代,无论你是做产品,运营,还是做研发,系统架构,乃至于安全风控,都会发现,数据思维是考验你能力提升的重要指标。 但其实,很多人只是掌握了数据分析的工具和技能,却做不好数据分析,无...https://cloud.tencent.com/developer/article/1966722
2.5个Github上的大数据分析案例!大数据项目开发案例文章列举了GitHub上的数据科学资源,包括AwesomeDataScience和DataScienceProjects等项目,提到了Kaggle竞赛平台以及使用Python和SQL进行大数据分析的重要性。此外,还强调了数据分析师应掌握的技能,如Excel和数据可视化工具,并推荐了学习资源和学习路径。 摘要由CSDN通过智能技术生成 ...https://blog.csdn.net/itcast_cn/article/details/131772550
3.五个Pandas实战案例带你分析操作数据pythonpandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效操作大型数据集的工具。pandas提供大量快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python强大而高效的数据分析环境的重要因素之一...https://www.jb51.net/article/235878.htm
4.矩阵数据分析法实例矩阵数据解析法案例2.实例: 在推荐系统中,最重要的数据是用户对商品的打分数据,数据形式如下所示: 其中,U1?U5表示的是5个不同的用户,D1?D4表示的是4个不同的商品,这样便构成了用户—商品矩阵,在该矩阵中,用户对每一件商品的打分,其中“-”表示的是用户未对该商品进行打分。 https://blog.51cto.com/u_13229/8815184
5.数据挖掘聚类分析实例【数据挖掘】聚类分析实例 技术标签:数据挖掘机器学习聚类 在之前,我们已经学过了四大类聚类分析及其典型算法。本文,我们将使用划分方法中的k-均值算法和层次聚类方法以一个实例进行完整的聚类分析演示。 1. 问题描述 例题: 为研究我国31个省、市、自治区2007年的城镇居民生活消费的规律,根据调查资料作区域消费类型...https://www.pianshen.com/article/74271139769/
6.Python数据分析与挖掘实战(豆瓣)此外,他精通Java EE企业级应用开发,是广东工业大学、华南师范大学、华南农业大学、贵州师范学院、韩山师范学院、广东技术师范学院兼职教授,著有《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》《R语言数据分析与挖掘实战》等畅销书。https://book.douban.com/subject/26677686/
7.工具Orange3:机器学习入门神器澎湃号·湃客澎湃新闻Orange3(https://orangedatamining.com/)是一款基于Python的数据挖掘和可视化工具,它提供了丰富的数据分析、机器学习和数据挖掘算法,同时也支持可视化分析和交互式数据探索。Orange3提供了友好的界面和丰富的示例工程,使得新手用户也可以快速上手,同时也支持Python脚本,可以满足高级用户的需求。 https://www.thepaper.cn/newsDetail_forward_24193195?commTag=true