数据分析——建模分析基本流程

日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。

在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。

那“了解数据”这一环节,具体要了解哪些东西呢?

在初步了解数据后,需要做一些数据预处理的行为。

第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。

具体处理的思路可以是这样的:

缺失值填充的方法有:

处理完缺失值后,需要做异常数据处理。

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。

当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;

如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。

还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。

在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:

影响:

1)影响模型的稳定性,而且影响模型的解释。

举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:

消费支出+收入1.3*收入1.6*收入-消费支出

同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。

2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。

怎么识别:

计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。

所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。

怎么解决:

不同的模型和应用场景下特征筛选方式不同:

1)特征子集选择法

特征子集选择法有向前逐步选择法和向后逐步选择法:

a)向前逐步选择

具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。

b)向后逐步选择

和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。

2)正则化压缩无意义特征的系数

比较好用的方法是lasso。

一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。

3)PCA降维

这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。

以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。

总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。

THE END
1.CPDA数据分析师:一个完整的数据分析流程数据分析师CPDA数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。 四、数据分析流程:数据展现 数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除...https://www.chinacpda.com/wenti/9623.html
2.数据分析的基本流程数据分析的基本流程 1、明确分析的目的,提出问题 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 2、数据采集 对收集到的原始数据进行数据加工,主要包括数据清洗、数据分组、数据检索、数据抽取等处理方法。 3、数据探索 ...https://www.jianshu.com/p/a475944bd8fc
3.一文搞懂!商业数据分析全流程2. 数据理解 数据理解阶段是CRISP-DM流程的关键环节,主要的任务是对企业的数据资源进行深入的认识和初步清理。这个阶段能够让分析师对手头的数据有一个全面的了解,为后续的数据准备和模型建立打下坚实的基础。在这个阶段,我们需要完成以下工作 ● 收集原始数据 ...https://www.niaogebiji.com/article-606353-1.html
4.数据分析方法论流程和框架分别是什么?Datainside数据分析方法论、流程和框架是指在进行数据分析时所采用的一系列方法、步骤和结构化框架,旨在帮助数据分析人员更系统、有效地进行数据分析工作。下面将详细介绍数据分析方法论、流程和框架的概念、主要内容和实际应用。 1. 数据分析方法论: 数据分析方法论是指在数据分析过程中所遵循的一套原则、理念和方法。它提供了...https://www.cnblogs.com/datainside/p/17716950.html
5.数据分析控制程序流程图.docx数据分析控制程序流程图.docx,公司logo 公司logo 文件编号| 2018/8/7 版本号 PAGE PAGE #更多搜索A1DN质星了解 公司logo 公司logo [文件编号]~~2018/8/7 版本号 PAGE PAGE #更多搜索AIDN质量了解 数据分析控制程序(附流程图) 姓名 签字 编制 审核 批准 %; 发布/修订日 https://max.book118.com/html/2021/0617/7030055106003133.shtm
1.什么是数据流图?数据流图可以分为逻辑形和物理形。逻辑数据流图描述了用以完成某业务功能所涉及的、业务层面的数据流动, 物理数据流图则描述系统层面的数据流动。 为什么绘画数据流图? 数据流图以将用以寻找、编辑、存储和分发数据的功能或过程图像化,方便用户和系统设计人员沟通。数据流图的结构也容让开发人员从高点分析系统,继...https://www.visual-paradigm.com/cn/guide/data-flow-diagram/what-is-data-flow-diagram/
2.数据分析基本流程有哪些?附零基础自学教程!简述数据分析的基本流程数据分析的基本流程主要有以下几个环节: 1、明确分析目的 明确数据分析的目的,才能确保数据分析有效进行,为数据的采集、处理、分析提供清晰的指引方向。 2、数据收集 数据收集按照确定的数据分析的目的来收集相关数据的过程,为数据分析提供依据。一般数据来源于数据库、互联网、市场调查、公开出版物。 https://blog.csdn.net/python03012/article/details/131272257
3.数据分析流程包括哪些步骤综上所述,数据分析流程包括了问题定义、数据采集、数据探索和可视化、数据预处理和特征工程、建立模型和算法选择、模型评估和优化、模型应用和结果解释等七个步骤。 数据分析过程中需要使用的分析方法 在数据分析过程中,需要使用多种分析方法和技术,以从数据中提取有用的信息和洞察。下面介绍几种常见的数据分析方法和技...https://www.linkflowtech.com/news/1597
4.数据分析工作流程简介8篇(全文)数据分析工作流程简介 第1篇 什么是母婴护理员 月嫂的定义: 月嫂是专业护理产妇与新生儿的一种新兴职业。 相对月薪只有几百元的普通保姆,“月嫂”属于高级家政人员。她们每月拿着比普通保姆多几倍的薪金,肩负一个新生命与一位母亲是否安全健康的重任,有的还要料理一个家庭的生活起居。 https://www.99xueshu.com/w/filerj6e7lpn.html
5.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8...https://36kr.com/p/1491281074089859
6.我用了五步,搭建一个数据分析体系企业有部门分工,因此第一步要认准:我在为哪个部门服务。这非常关键!因为即使同一个问题,不同部门的关注点会不同。同样是销售问题,如果是销售部看,关注的是每一支销售队伍完成率、进度、质量。如果是供应链看,那关注的就是总量、各产品数量、需求高峰期。如果是风控看https://www.51cto.com/article/719941.html
7.数据分析的工作流程的步骤是什么在数字化时代,数据分析已经成为企业获取竞争优势的关键。通过掌握数据,可以洞察市场趋势,优化业务流程,提高决策效率。那么,数据分析的工作流程的步骤是什么? 数据分析的工作流程共分为六个阶段: 一、业务需求处理 在开始任何数据分析项目之前,首先需要明确业务需求。这涉及到与业务部门的人员沟通,了解他们的问题和目标。https://www.pxwy.cn/school-2440/document-id-27822.html
8.Python中的数据分析详解pythonpython在数据分析方面有哪些优势 Python不受数据规模的约束,能够处理大规模数据。 Python的sklearn库提供了丰富的数据挖掘和人工智能方法,为使用者分析各种场景提供方法支持。 Python的自动数据分析能够显著提升工作效率。 Python能够绘制各种前沿的数据图表。 Python在海量数据采集方面也有独特的优势。 数据分析的流程是什么...https://www.jb51.net/python/293629wkm.htm
9.数据分析师必须掌握的九种数据分析方法和图表类型定义:关联分析是用于发现存在于大量数据集中的关联性或相关性,从数据的角度发现其中的趋势和联系。从而描述了一个事物中某些属性同时出现的规律和模式。 表现形式:弧长连接图、和弦图、桑基图、矩阵树图、韦恩图、散点图、折线图。 流程分析 定义:流程分析用于研究和优化数据流程和业务流程。通过流程分析,我们可以识别...http://www.zhihaitech.com/zhihaitech/vip_doc/26642147.html
10.流程分析看板制作简道云本功能仅统计 2020-07-07 00:00:00 之后发起的流程数据 1. 简介 流程分析开启后,我们可以在仪表盘中制作流程分析看板,也可以在流程表单访问界面制作流程分析看板,现在我们将详细介绍流程分析看板的制作。 由于两个位置流程分析看板的制作步骤几乎一样,我们以仪表盘流程分析看板制作为主进行详细介绍。 https://hc.jiandaoyun.com/doc/12037
11.在线医药销售网站,(开题报告,需求分析,数据流程图,E在线医药销售网站,(开题报告,需求分析,数据流程图,E-R图,文献综述) 发布在线医药销售网站,(开题报告,需求分析,数据流程图,E-R图,文献综述) 剧情介绍:在线医药销售网站,(开题报告,需求分析,数据流程图,E-R图,文献综述) 在线医药销售网站,(开题报告,需求分析,数据https://m.tv.sohu.com/us/63280571/27442753.shtml