统计学知识案例实践—数据分析实战案例案例1案例2夜的独白

统计学的知识,学了那么多,应该在实际问题去验证和解决,尽量在实际项目中去应用,要有输出的环境,否则学习只是学习,并不能检验真正的水平和意义。所以针对此,后续在网上找一些案例进行实操。

例1:某互联网公司希望激活数量可观的沉默用户,设计了3个方案,将所有沉默用户随机分布在规模相同的三个群中,将3套方案实施在这3个群体中,观察3个群体中每天成功唤醒的用户数量,下图是3个方案实施8天后的数据:

那么作为数据分析师,要如何依据上面的数据衡量每个唤醒方案的效果,选出最优方案呢?这个问题结合业务的分析,还是可以实现的。但是这里主要结合基本的统计学知识来做基本的分析。分析方法有哪些呢:

我们先假设这3个方案的用户激活数的均值是相等的。我们需要通过统计学的方法来验证这个假设是否正确,如果满足这个条件,则接受这个假设,说明这3个方案的效果是相同的,如果不满足一定的条件,就拒绝这个假设,说明这个3个方案激活效果是不一样的,那么才有接下来的深层分析。

分析:MS值得是均方和,F指的是F检验统计量的值,P-value值得是出现当前结果的概率,说明的是,在原假设成立的前提下,3个方案均值分别的1024、1073、1043的概率仅为0.045,低于显著性概率0.05,如此小概率的事件在一次实验中发生是不可能的,因此要拒绝原假设,也就说这3个方案所激活的沉默用户的均值是不相同的。

那到底是哪个方案最优呢?在证明了3个方案的效果均值不同之后,最简单的方案就是看均值,均值最高的就是最优的方案,因此可以选择方案2。

但是,我们都会知道,均值反应的是数据的集中趋势,数据还有波动性,如果方案2的均值最大,但是对应的方差很大,那依据均值来判断就不是那么可靠了。

在这里我们选择EXCEL中t-检验,双样本等方差假设

从输出结果来看,不仅有单侧t检验和双侧t检验结果:tStat:计算得出的t值;**P(T<=t)单尾与t单尾临界**:已知显著水平下的单尾临界t值和P值;**P(T<=t)双尾与t双尾临界**:已知显著水平下的双尾临界t值和P值;合并方差:合并公式如下:

我们通过上图发现,方案1和方案2之间呈现出了显著性,可以判断方案2是优于方案1的,至于方案1和方案3,暂时没有足够的证据判断他们的优劣。在这里呢,可以继续用均值来做比较就会准确很多了。

案例2:

某互联网公司开发了一个识别商家是否是恶性商户的模型M1。在使用模型之前,人工监察团队说,目前平台上的恶性商户比率为0.2%。利用M1模型监测后,发现在之前人工判定的恶性商户中,有模型判定为恶性商户的人数占比为90%,在人工判定的健康商户中,有M1判定为恶性商户的人数占比为8%,通过这些分析会感觉商户有8%的误判,还有10%的漏判,那么这个模型的结果到底是不是可靠的呢?

利用全概率公式:当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率由P(E∣P)P(E|P)P(E∣P)表示:P(E∣P)=P(P∣E)P(E)P(E)P(P∣E)+P(E)P(P∣E)P(E|P)=\dfrac{P(P|E)P(E)}{P(E)P(P|E)+P(E)*P(P|E)}P(E∣P)=P(E)P(P∣E)+P(E)P(P∣E)P(P∣E)P(E)

上面就是全概率公式。要知道判别为恶性商户的前提下,该商户实际为恶性商户的概率,需要由先前的恶性商户比率P(E)P(E)P(E),以判别的恶性商户中的结果为阳性的商户比率P(P∣E)P(P|E)P(P∣E),以判别为健康商户中的结果为阳性的比率P(P∣E)P(P|~E)P(P∣E),以判别商户中健康商户的比率P(E)P(~E)P(E)来共同决定:

P(E)=0.002P(E)=0.002P(E)=0.002P(P∣E)=0.9P(P|E)=0.9P(P∣E)=0.9P(E)=0.998P(~E)=0.998P(E)=0.998P(P∣E)=0.08P(P|~E)=0.08P(P∣E)=0.08P(E∣P)=P(P∣E)P(E)/(P(E)P(P∣E)+P(E)P(P∣E))=0.022P(E|P)=P(P|E)P(E)/(P(E)P(P|E)+P(E)*P(P|E))=0.022P(E∣P)=P(P∣E)P(E)/(P(E)P(P∣E)+P(E)P(P∣E))=0.022

通过贝叶斯模型计算,恶性商户的比例为2.2%,也就是说,根据M1的判别结果,某个商户实际为恶性商户的概率为2.2%,是不进行模型判别的11倍。

虽然2.2%的概率并不算高,但在实际情况中,被M1模型判别为恶性商户,说明这家商户做出恶性行为的概率是一般商户的11倍,非常有必要用进一步的手段检查。

恶性商户判别模型真正的使用逻辑应该是如下图所示。我们先用M1进行一轮判别,结果是阳性的商户,说明出现恶性行为的概率是一般商户的11倍,那么有必要用精度更高的方式进行判别,或者人工介入进行检查。精度更高的检查和人工介入,成本都是非常高的。因此M1模型的使用能够使我们的成本得到大幅节约。

贝叶斯模型在很多方面都有应用,我们熟知的领域就有垃圾邮件识别、文本的模糊匹配、欺诈判别、商品推荐等等。通过贝叶斯模型的阐述,大家应该有这样的一种体会:分析模型并不取决于多么复杂的数学公式,多么高级的软件工具,多么高深的算法组合;它们的原理往往是通俗易懂的,实现起来也没有多高的门槛。比如贝叶斯模型,用Excel的单元格和加减乘除的符号就能实现。所以,不要觉得数据分析建模有多遥远,其实就在你手边。

THE END
1.数据分析案例整理数据分析案例整理 1、【数据分析课程案例题】羊驼生鲜新开门店如何提升销售表现 一、对比: 1、比差距:3、42、43号门店周平均平效领先于其他门店; 2、比变化:3、42号门店的同比增长是负的,说明虽然本年销量较好,但跟去年相比有较大下滑;43号门店的同比增长最大,周平均平效也不错,这个是标杆门店...https://www.jianshu.com/p/acd8d436b4ae
2.统计学数据分析案例以下是一些统计学数据分析案例: 案例1:某互联网公司希望激活数量可观的沉默用户,设计了3个方案,将所有沉默用户随机分布在规模相同的三个群中,将3套方案实施在这3个群体中,观察3个群体中每天成功唤醒的用户数量。作为数据分析师,要如何依据上面的数据衡量每个唤醒方案的效果,选出最优方案呢?这个问题结合业务的分析,...https://www.360doc.cn/article/75092861_1119651650.html
3.20个行业数据分析案例实战20个行业数据分析案例实战 人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。 经管之家是国内活跃的在线教育咨询平台! 经管之家新媒体交易平台 提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一...https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_7579922_1.html
4.数据新闻案例分析.ppt数据新闻案例分析.ppt 22页VIP内容提供方:189***4123 大小:1.37 MB 字数:约1.79千字 发布时间:2023-07-20发布于湖北 浏览人气:306 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)数据新闻案例分析.ppt 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文...https://m.book118.com/html/2023/0719/8060133037005112.shtm
1.精选30个数据分析案例,建议收藏!腾讯云开发者社区精选30 个数据分析案例,建议收藏! 我们团队每周开会讨论问题的时候,都会对每天的增长数据进行复盘。期间,领导常常会提及「数据思维」这个词。 这就涉及到,你必须要有思维能力,去支撑你在看到数据时,会从多维度去分析,而不是只看到表面数字这么简单而已,否则就是抓瞎。https://cloud.tencent.com/developer/article/1966722
2.数据分析案例49个数据分析案例49个 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: · 以数据驱动的决策,主要通过提高预测概率,来提高决策成功率; · 以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率; · 以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新。 从谷歌、...https://www.mayiwenku.com/p-39740994.html
3.数据分析案例及新手如何学习数据分析数据分析案例及新手如何学习数据分析 图片来源:123rf.com.cn 文章大纲: 数据体系搭建是OT与DT的结合体。 数据分析常见作用之案例一:提升效率 数据分析常见作用之案例二:验证猜想 数据分析常见作用之案例三:修正方向 数据分析常见作用之案例四:辅助决策 数据分析常见作用之案例五:了解现状...https://www.cifnews.com/article/85923
4.银行数据分析案例6篇(全文)银行数据分析案例 第1篇 存折被掉包诈骗,起诉银行获赔偿 存折被掉包诈骗,起诉银行获赔偿 文/陈红岩 金博大律师事务所律师 一、基本案情 2006年11月16日,一自称是郑州炮院的张志峰警官等几人找到中牟县银山加油站的原告李银山,说部队后勤部有若干油,价格便宜,问是否需要,李表示可以考虑。17日,经过商议,张让李到银行...https://www.99xueshu.com/w/filesnb84hp2.html
5.企业数据分析案例(15个).zip数据分析案例资源企业数据分析是现代商业环境中至关重要的一个领域,它涵盖了多种技术和方法,用于收集、清理、转换、分析和解读数据,以支持决策制定、优化业务流程和预测未来趋势。本压缩包"企业数据分析案例(15个).zip"包含了15个具体的企业数据分析实例,旨在帮助我们了解并掌握数据分析在实际业务场景中的应用。 1. 销售数据分析:通过...https://download.csdn.net/download/cdfunlove/50571621
6.Excel数据分析实战案例300个excel数据分析案例Excel数据分析实战案例 300个excel数据分析案例 目录 1. 对比分析 1.1 日期分组 1.2 环比计算 1.3 同比计算 2. 结构分析 3. 分布分析 3.1 VLooKup模糊匹配功能进行分组 3.2 数据透视表进行数值型数据分组 4. 交叉分析 4.2 交叉表 1. 对比分析 定义:将2个或2个以上的数据进行比较,分析它们的差异性,从而发现...https://blog.51cto.com/u_16213615/8225356
7.干货数据分析实战案例——用户行为预测CDA数据分析师这里关键是使用dask库来处理海量数据,它的大多数操作的运行速度比常规pandas等库快十倍左右。 pandas在分析结构化数据方面非常的流行和强大,但是它最大的限制就在于设计时没有考虑到可伸缩性。pandas特别适合处理小型结构化数据,并且经过高度优化,可以对存储在内存中的数据执行快速高 效的操作。然而随着数据量的大幅度...https://www.shangyexinzhi.com/article/4463036.html
8.数据分析报告(通用17篇)数据分析报告(通用17篇) 在人们越来越注重自身素养的今天,报告的适用范围越来越广泛,报告包含标题、正文、结尾等。那么报告应该怎么写才合适呢?以下是小编精心整理的数据分析报告,欢迎阅读与收藏。 数据分析报告 篇1 回顾,我从XX年10月27日迈入xx铝业这个大家庭已经和大家和谐相处了数十年。 随着公司的成长,也不断...https://www.ruiwen.com/gongwen/baogao/919787.html
9.数据可视化10大案例分析编辑导语:随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,数据可视化像所有新兴概念一样边界不断扩大。而我们在执行可视化设计时需要注意哪些方面?又该如何让用户更让好的理解可视化图形?这篇文章用十个案例告诉你以上问题的答案。 数据可视化一直处于大热的状态,已成为互联网产品的基本配置。它用于...https://weibo.com/ttarticle/p/show?id=2310474758900879524197