案例:如何用SQL分析电商用户行为数据sql淘宝元数据描述性

编辑导语:在日常工作中,经常会用到数据分析的方法,数据分析可以帮助我们快速清晰的了解目前数据走向,也可以对用户的活跃度和转化度进行分析;本文作者以“淘宝用户行为数据集”为例,用SQL进行分析,我们一起来看一下。

笔者之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来,很少有各种工具、各种分析方法全来一遍的;所以本次借分析“淘宝用户行为数据集”为案例,梳理一下自己的数据分析技能。

本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程。

目录如下:

一、分析流程和方法1.数据分析类型

当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。

在没有很明确问题或问题很多很复杂的情况下,直接看杂乱的源数据不仅效率很低,也很难得到有价值的信息。

然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。

简单来说:

描述性分析就是:“画地图”;诊断性分析就是:“找问题”;预测性分析就是:“找规律”;2.数据分析的两个典型场景

在数据分析中有两个典型的场景:

一种是有数据,没有问题,需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。

另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。

二、淘宝用户行为分析

本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。

1.解读元数据

我们首先来看下这个数据集的元数据:

数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括四种:点击商品详情页、购买商品、将商品放入购物车、收藏商品)。

本数据集包含:用户数量987994、商品数量4162024、商品类目数量9439;所有行为数量100150807。

2.选择分析方法

根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案

纵向:

深向:

用户从浏览到购买的整体转化率怎么样?用户从浏览到购买的路径是怎么样子的?平台主要会给用户推送什么商品?用户喜欢什么类目?喜欢什么商品?怎么判断哪些是高价值用户?

下面是叮当整理的常用分析方法:

我们可以给前面的问题匹配一下分析方法,便于后面的分析:

3.数据清洗

为了便于后面的数据分析,在分析之前我们需要先对做一下清洗。

1)数据预处理

数据导入:由于整体数据集有100W+条数据,导入太慢,本次仅导入10W条分析。

添加列名:数据导入时默认使用第一行数据作为列名,由于本数据集没有列名,需要添加。

2)缺失值清洗

确定缺失值范围,去除不需要字段,填充缺失内容。

3)格式内容清洗

根据元数据格式和后续分析需要的格式对数据进行处理。

4)逻辑错误清洗

去除重复值,异常值。

异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据。

剔除不在本次分析范围的数据。

查询并删除小于2017-11-25的。

验证数据:

4.描述分析

分析思路:

SQL提数:

Excel可视化:

活跃曲线整体为上升状态,同为周六日,12月2号、3号相比11月25日、26日活跃度更高。

是否是用户增长带来的?

2)在当日活跃的用户次日、三日、四日……还有多少活跃?

用户存留的分析可以分为“新用户存留”和“活跃用户存留”。

SO,实际上这个问题就是在求,数据集第一日在APP有关键行为的用户在第二天、第三天……还会继续在APP中有关键行为的用户占比。

我们需要先列出每用户每天及当天后面又活跃的日期,用于后面求次日存留,三日存留……之后按日期对用户进行分组,并抽取之后9天依然活跃的用户数量;最后用活跃用户表中后续活跃用户除首日活跃数量乘100加%号。

对存留人数表进行计算,统计活跃用户留存率。

用户增长:从2017年11月15日致2017年12月3日,活跃用户新增38%;存留增长:从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

3)用户从浏览到购买的整体转化率怎么样?

将数据集中按不同用户,不同商品维度进行分组获得某一用户行为对某一商品不同行为的数据;然后对“用户行为漏斗表”中的浏览、加购物车、收藏、购买行为进行分组统计。

把各种用户行为分离出来并创建视图方便后续查询用户行为数据。

查询整体数据漏斗。

用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析。

4)用户从浏览到购买的路径是怎么样子的?

穷举所有可能的用户路径,引用“用户行为漏斗表”视图,计在数据中点击行为大于0,购买行为大于0,其他两项为0,则判定本用户购买路径为;点击—购买,其他路径同理,多次查询并用Excel表记录查询数据,用户PowerBI桑基图做可视化。

PowerBI可视化:

用户从浏览到购买的路径主要有4条,路径越长转化率越低:

路径1:浏览→购买:转化率1.45%;路径2:浏览→加购物车→购买:转化率0.33;路径3:浏览→收藏→购买:转化率0.11%;路径4:浏览→收藏→加购物车→购买:转化率0.03%;

以上转化率等于起始路径到购买的转化

5)平台主要给用户推送什么商品?

虽然我们没法直接从数据中找到平台推送的数据,但作为平台流量倾斜的商品,浏览量一般都会比其他商品的浏览量高一些;我们可以引用“用户行为漏斗表”视图统计浏览量前100的商品及其类目。

描述性分析:

浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

是否是用于淘宝流量分配规则的原因造成的?(假设淘宝的规则是给所有商品分配的初始流量是一样的,后期这些商品中那些商品转化率高就给哪些商品更多曝光。)

浏览量TOP100的商品所属类目中,4756105、3607361、4357323三个类目浏览量远超其他类目。

这个几个类目商品类型是否是高频刚需类型的呢?

6)用户喜欢什么商品?

找高转化率的商品(销量高的有可能只是低价或者流量大)。

查询计算商品转化率,升序排列,取前100个。

从商品看:有17款商品转化率超过了1。

是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?

从类目看:这些商品所属类目分布均匀,除965809、4801426、2735466、2640118、5063620、4789432、2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?

7)怎么判断哪些是高价值用户?

用户价值分析常用的分析方式是RFM模型。

然后给这三个指标根据价值分5个等级,进行打分计算分值和平均值,然后根据分值与平均值对比,分出“高”“中”“低”,综合进行用户分层。

本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):

SQL取数与分析:

建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准。

关于打分标准:不同业务的用户消费频率、消费金额、精细化运营策略与成本……都是不同,一般常用”分位数“建立打分标准;由于SQL并不是专业得统计分析工具,计算分位数较为复杂,本次仅使用最大值和最小值的区间初略建立规则。

分位数:是指在统计学中把所有数值由小到大排列并分成几等份,取处于对应几个分割点位置的数值。

查询并计算R,F值创建视图:

引用RF数值表,分别查询R,F的最大值和最小值:

结合人工浏览的建立打分标准:

消费频率:由于人工浏览时发现很少有超过20次购买的,故消费频率在20以内四等分。

给R,F按价值打分:

计算价值的平均值:

用平均值和用户分类规则表比较得出用户分类:

查询各类用户数量:

由于缺失了商品价格部分的数据,本模块暂时没有分析结论。

5.诊断分析

通过描述性分析得到可视化的数据后,我们一般会先看一下是否符合业务常识,如:假设一个页面的UV(浏览人数)比PV(浏览次数)还高,那这个数据质量肯定是有问题的。

如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。

1)诊断分析结论

我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:

a.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。

正常:结合描述分析4中的活跃用户的增长。

c.一天内用户活跃的最高峰期为21点。

d.从2017年11月15日致2017年12月3日,活跃用户新增38%。

还需验证:如果是由于新注册用户或者老用户召回策略带来的增长符合常识,具体还需结合新注册用户数据和用户召回策略数据做验证。

e.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

这里的具体数据还需要结合用户生命周期运营的策略和数据做验证。

f.用户从浏览到购买整体转化率2.3%。

正常,根据之前了解到的电商数据,多种客单价的商品(几十~几千)在一起,整体转化率在2%~3%之间,当然具体还需要结合历史的同比,环比数据取看。

g.用户从浏览到购买的路径主要有4条,路径越长转化率越低。

正常:从流量的角度,每多一个步骤就会多一些用户流失这个符合常识。

h.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

待验证:假设淘宝会给高转化的爆款商品更多的曝光,商品浏览量呈金字塔分布是正常的。

i.浏览量TOP100的商品所属类目中,4756105、3607361、4357323三个类目浏览量远超其他类目。

还需验证:抽取购买购买次数判断这个几个类目商品类型是否是高频刚需类型的呢?

j.从商品看:有17款商品转化率超过了1。

不正常:

还需验证:是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?

k.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

还需验证:是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?

2)假设与验证

根据以上诊断分析我们梳理出了以下假设,做假设验证。

假设1:这些商品中有高转化率的爆款商品。

引用“商品转化率视图”查询排名前5的商品转化率:

对比同类目的其他商品转化率:

对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立。

假设2:4756105,3607361,4357323三个类目属于高频刚需类目。

抽取这几个类目的商品某买频次数据验证。

创建类目购买频次表:

计算类目购买频次平均值:

查询4756105、3607361、4357323三个类目的购买频次:

4756105、3607361、4357323三个类目的用户购买频次明显高于平均值,假设成立。

假设3:有部分用户是未点击商详直接从收藏和购物车购买的。

查询转化率超过1的商品的用户行为数据:

用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立。

假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”。

给浏览量TOP100的商品和转化率TOP100的商品做匹配看其中重合的商品有多少。

用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立。

3)结论:

用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高;在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。

用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%;当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。

平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。

以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。

本文由@小叮当v1.6原创发布于人人都是产品经理。未经许可,禁止转载。

THE END
1.国家开放大学23春网店运营与管理形考任务100分答案9.网店可以从()角度选择商品类目 A.网店商品 B.关键词 C.商品价格 D.平台优质网店 10.目标人群定位的方法有()。 A.价格定位 B.地域定位 C.职业定位 D.年龄定位 11.留存率越高,意味着用户使用商品的时间越长,他们能够为商品带来现金流和价值也就更大。 http://www.aopen255.com/show/57006.html
1.电商如何选品,和“打造爆款”?跨境电商与创业文摘所谓大盘就是你所选择的产品品类一共有多大市场,举个例子你打算在淘宝上做白酒,大盘就是在淘宝上一年所有的白酒能卖出多少钱,这个钱数就是白酒的大盘。 ③大盘数据 上面我们讲了大盘就是一个品类在某平台上一年的销售总额,大盘数据就是这个盘子里的细分数据。比如大盘里有多少品牌分别占多少销售额;大盘里不同价格...https://www.shangyexinzhi.com/article/23223579.html
2.生活用品的选品思路有哪些,生活用品的选品思路有哪些方面选择5-10个认为做得好的竞争对手,看看它的橱窗里都有哪些品类的产品上架,哪些产品卖得最好 4.根据用户定位选择产品 分析你的粉丝或者目标客户的年龄和性别,根据他们的需求来选择产品 图文带货怎么选品? 图文带货适合的产品主要是一些外观、质量、功能等方面比较容易展示的商品,例如服装、化妆品、食品、家居用品等。这...http://5g.wfqianyuan.com/post/1325.html
3.商品类目选择的方法主要有哪些?()更多“商品类目选择的方法主要有哪些?()”相关的问题 第1题 以下哪些行为属于标题类目不符? A.标题中出现与实际销售产品不符的关键词 B.标题中实际商品属性词为women’sets,但标题中出现weddingdress C.商品的描述使用相同或近似的关键词堆砌 D.类目选择正确,但标题与商品的实际属性不一致的情形 ...https://www.xilvlaw.com/souti/waimao/EEDA7005.html
4.淘宝网上,商品发布类类目一共有三种选择方法:()()()参考答案: 输入商品关键信息搜索类目;选择以前发布过的类目;逐级选择类目 复制 纠错举一反三 一级危险化工工艺装置的分析周期为3年,二级危险化工工艺且为重大危险源的装置分析周期为3年,二级危险化工工艺且不涉及“两重点一重大”的装置分析周期为( )年。 A. 5 B. 3 C. 2 查看完整题目与答案 “...https://www.shuashuati.com/ti/664a7bfff7ba41c1a9282043bcb2f1be.html?fm=bd3b9bbf79e5ffe28a5f07ef4e81aa777b
5.淘宝天猫商城电子商务运营考试试题2、选购相机有四个基本要素,除了选择有热靴插槽外接闪光灯和适合的感光元件之外,还要具备以下哪两个要素?( CD ) A、要有流线形的外观 B、要有好的镜头 C、要有手动模式 D、要具备微距特写拍摄功能 3、以下哪些商品可以采用吸光类商品的拍摄方法?( ABC ) ...https://m.oh100.com/kaoshi/peixun/375296.html
6.闲鱼怎么选择类目?选品有哪些方法?选品有哪些方法? 闲鱼拥有上亿的活跃用户,每天都有大量的消费者到平台上面寻找商品,因此闲鱼的市场潜力是非常大的。很多商家利用闲鱼平台的流量,推销出售自己的商品,并且也取得了不错的效果。与淘宝一样,在闲鱼上面卖东西,也得发布到合适的类目里,那么闲鱼怎么选择类目?http://zx.kaitao.cn/article/20220415100107.htm
7.Query类目预测query归一主要方法有基于统计、基于内容、基于特征融合三大类。 基于统计 1.一方面,搜索系统往往可以积累大量的用户行为数据,如点击、收藏、购买等。另一方面电商场景有比较健全的商品类目体系。结合这两点,用户搜索query后点击/购买商品的类目分布,可以反映出该query的类目预测分布。基于此,可以使用频率统计的方法(如query点击/成交...https://blog.csdn.net/Hexiaolian123/article/details/124104708
8.爆款选品技巧附实操流程(强烈建议收藏)设置好参数后,点击搜索,就会看到符合条件的产品列表。这时候,可以用以下方法进一步筛选: 图片来源:卖家精灵 看产品月销数据:优先关注月销量稳定在500-1000左右的产品。这说明市场有需求,但还没有完全饱和。 看竞争对手数量:如果市场上主要竞品不超过10个,并且大部分评分低于4.3,那么这个市场还有切入空间。 https://www.cifnews.com/article/167563
9.2022电商知识:淘宝商品类目有哪些?如何选择?淘宝电商平台上面,商品都会以分门别类的方式将商品整齐的进行规划,商家在需要发布商品时是需要通过一级一级的方式来进行发布的。以下是汇学电商教育的小编为大家整理的“2022电商知识:淘宝商品类目有哪些?如何选择?”相关资料,供参考。 淘宝商品类目有哪些? https://www.youkee.com/wenda/15726.html
10.盘点:合格的亚马逊运营38个问答(二)①降低自己的商品价格:(“丢车保帅”——降价的目的稳定单量,保住购物车。) ②直接联络卖家(“先礼后兵”—— 沟通无效再有对策) 方式/方法可以参考: 首先找到该卖家任一商品页面,选择其他卖家商品。 接着,进入该画面,点击该商品卖家(跟卖你的卖家)名称。如果对方有自己的产品界面最好,直接点击它产品界面上的...https://maimai.cn/article/detail?fid=914191560&efid=kXcEqzU3yyVK3G6PbRLq-w
11.电子商务师(二级)模拟题.pdf63.下列属于物流选择方法的有()?* A.矩阵分析法 B.功能分析法(正确答案) C.优劣势分析法 D.层次分析法三确”案) 答案解析:物流选择方法 64.网络推广策略主要有()* A.产品策略 B.品牌策略 C.软营销策略 D.折扣营销策略 65.计算机数据储存换算关系正确的是() A.1KB=A24B(正确答案) B.1MB=1024KB(正确...https://m.renrendoc.com/paper/305598752.html
12.国铁商城4. 商品如何选择类目? 请您查看相关招商文件中的商品分类表,按照对应三级分类上线。如分类模糊,可参考主流电商平台相似产品分类。 附件18:商品分类表 5. 商品图片维护有哪些注意事项? 商品上架时,图片、商品名称等内容可参考《国铁通用物资采购平台商品上架审核实施细则(试行)》 https://mall.95306.cn/mall-view/...https://mall.95306.cn/mall-view/noticeRe?id=17
13.淘宝运营方案6篇① 通过淘宝TOP排行榜进行确定。选择标题关键字必须用的一个免费方法,所以还是要说一下。TOP排行榜的网址为:xxxxxx进入这个网址后,选择自己产品的类目查看最近一周的热门搜索关键词,这些对你标题的设置很有帮助,这是第一步。 ② 打开淘宝首页,选择自己的类目,看看哪些是黄色字体的,这些就是当前同类中的热门搜索关键...https://www.ruiwen.com/yunyingfangan/6076088.html
14.淘宝商品发布快速选择类目的3个方法店铺装修淘宝/天猫电子商务莫愁,莫愁,放错类目,是会严重影响宝贝搜索的,跟着小编走,守的云开见日月,小编有私家珍藏多年的快速选择正确类目的方法,走过路过不要错过。 第一种:按步骤选择类目: 小伙伴们可以根据商品的属性,一级级选择下去,直到最后一级类目为止。 优势:最常见的类目选择方法,按步骤选择,不容易出错。 https://www.jb51.net/dianshang/157274.html
15.电商训练营网店运营本书以网店运营的重要性、网店运营的工作内容及职责为切入点,全面介绍了网店运营的思路、方法和技巧,主要内容包括打造店铺的品牌、打造爆款升级金牌卖家、店铺优化与管理、利用淘宝促销活动提升销量、三大利器推广商品、站外推广挖掘潜力客户、网店数据分析、淘宝SEO搜索引擎优化、物流与客服管理等。通过本书的学习,可将零...https://www.epubit.com/bookDetails?id=UB6c692e244555a
16.拼多多类目查询方法详解癞蛤蟆工具箱三、类目查询工具 如果您不确定商品应该选择哪个类目,可以使用拼多多提供的类目查询工具。在商品发布页面的“所属类目”下方,有“类目查询”按钮,点击即可进入类目查询页面。 四、使用类目查询工具 在类目查询页面,您可以使用以下方法来查询类目 1.关键词搜索 ...https://new.91laihama.com/taobaozx/56377.html
17.拼多多类目怎么选择?拼多多类目怎么选择商品?在电商飞速发展的今天,拼多多以其独特的社交电商模式迅速崛起,吸引了大量商家和消费者,对于商家而言,如何在拼多多平台上选择合适的类目和商品,直接关系到店铺的流量、转化率和最终收益,本文将详细探讨拼多多类目选择和商品选择的方法,帮助商家在激烈的市场竞争中脱颖而出。 https://www2.duoduodashi.com/zixun/284.html
18.2019级电子商务专业人才培养方案(4)掌握商品拍摄、图形图像处理和网络文案写作的方法。 (5)掌握电子商务数据统计分析和报告撰写以及客户服务与管理的相关知识。 (6)掌握主流电子商务平台的运营规则和推广方式,跨境电子商务平台和新媒体运营与管理的方法。 (7)掌握网店运营规范与流程的相关知识。 https://www.hnwmxy.com/jiaoxuekeyan/jiaoxuebiaozhunfabu/rencaipeiyangfangan/2019_r/2020/0703/6462.html