案例:如何用SQL分析电商用户行为数据sql淘宝元数据描述性

编辑导语:在日常工作中,经常会用到数据分析的方法,数据分析可以帮助我们快速清晰的了解目前数据走向,也可以对用户的活跃度和转化度进行分析;本文作者以“淘宝用户行为数据集”为例,用SQL进行分析,我们一起来看一下。

笔者之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来,很少有各种工具、各种分析方法全来一遍的;所以本次借分析“淘宝用户行为数据集”为案例,梳理一下自己的数据分析技能。

本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程。

目录如下:

一、分析流程和方法1.数据分析类型

当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。

在没有很明确问题或问题很多很复杂的情况下,直接看杂乱的源数据不仅效率很低,也很难得到有价值的信息。

然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。

简单来说:

描述性分析就是:“画地图”;诊断性分析就是:“找问题”;预测性分析就是:“找规律”;2.数据分析的两个典型场景

在数据分析中有两个典型的场景:

一种是有数据,没有问题,需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。

另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。

二、淘宝用户行为分析

本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。

1.解读元数据

我们首先来看下这个数据集的元数据:

数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括四种:点击商品详情页、购买商品、将商品放入购物车、收藏商品)。

本数据集包含:用户数量987994、商品数量4162024、商品类目数量9439;所有行为数量100150807。

2.选择分析方法

根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案

纵向:

深向:

用户从浏览到购买的整体转化率怎么样?用户从浏览到购买的路径是怎么样子的?平台主要会给用户推送什么商品?用户喜欢什么类目?喜欢什么商品?怎么判断哪些是高价值用户?

下面是叮当整理的常用分析方法:

我们可以给前面的问题匹配一下分析方法,便于后面的分析:

3.数据清洗

为了便于后面的数据分析,在分析之前我们需要先对做一下清洗。

1)数据预处理

数据导入:由于整体数据集有100W+条数据,导入太慢,本次仅导入10W条分析。

添加列名:数据导入时默认使用第一行数据作为列名,由于本数据集没有列名,需要添加。

2)缺失值清洗

确定缺失值范围,去除不需要字段,填充缺失内容。

3)格式内容清洗

根据元数据格式和后续分析需要的格式对数据进行处理。

4)逻辑错误清洗

去除重复值,异常值。

异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据。

剔除不在本次分析范围的数据。

查询并删除小于2017-11-25的。

验证数据:

4.描述分析

分析思路:

SQL提数:

Excel可视化:

活跃曲线整体为上升状态,同为周六日,12月2号、3号相比11月25日、26日活跃度更高。

是否是用户增长带来的?

2)在当日活跃的用户次日、三日、四日……还有多少活跃?

用户存留的分析可以分为“新用户存留”和“活跃用户存留”。

SO,实际上这个问题就是在求,数据集第一日在APP有关键行为的用户在第二天、第三天……还会继续在APP中有关键行为的用户占比。

我们需要先列出每用户每天及当天后面又活跃的日期,用于后面求次日存留,三日存留……之后按日期对用户进行分组,并抽取之后9天依然活跃的用户数量;最后用活跃用户表中后续活跃用户除首日活跃数量乘100加%号。

对存留人数表进行计算,统计活跃用户留存率。

用户增长:从2017年11月15日致2017年12月3日,活跃用户新增38%;存留增长:从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

3)用户从浏览到购买的整体转化率怎么样?

将数据集中按不同用户,不同商品维度进行分组获得某一用户行为对某一商品不同行为的数据;然后对“用户行为漏斗表”中的浏览、加购物车、收藏、购买行为进行分组统计。

把各种用户行为分离出来并创建视图方便后续查询用户行为数据。

查询整体数据漏斗。

用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析。

4)用户从浏览到购买的路径是怎么样子的?

穷举所有可能的用户路径,引用“用户行为漏斗表”视图,计在数据中点击行为大于0,购买行为大于0,其他两项为0,则判定本用户购买路径为;点击—购买,其他路径同理,多次查询并用Excel表记录查询数据,用户PowerBI桑基图做可视化。

PowerBI可视化:

用户从浏览到购买的路径主要有4条,路径越长转化率越低:

路径1:浏览→购买:转化率1.45%;路径2:浏览→加购物车→购买:转化率0.33;路径3:浏览→收藏→购买:转化率0.11%;路径4:浏览→收藏→加购物车→购买:转化率0.03%;

以上转化率等于起始路径到购买的转化

5)平台主要给用户推送什么商品?

虽然我们没法直接从数据中找到平台推送的数据,但作为平台流量倾斜的商品,浏览量一般都会比其他商品的浏览量高一些;我们可以引用“用户行为漏斗表”视图统计浏览量前100的商品及其类目。

描述性分析:

浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

是否是用于淘宝流量分配规则的原因造成的?(假设淘宝的规则是给所有商品分配的初始流量是一样的,后期这些商品中那些商品转化率高就给哪些商品更多曝光。)

浏览量TOP100的商品所属类目中,4756105、3607361、4357323三个类目浏览量远超其他类目。

这个几个类目商品类型是否是高频刚需类型的呢?

6)用户喜欢什么商品?

找高转化率的商品(销量高的有可能只是低价或者流量大)。

查询计算商品转化率,升序排列,取前100个。

从商品看:有17款商品转化率超过了1。

是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?

从类目看:这些商品所属类目分布均匀,除965809、4801426、2735466、2640118、5063620、4789432、2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?

7)怎么判断哪些是高价值用户?

用户价值分析常用的分析方式是RFM模型。

然后给这三个指标根据价值分5个等级,进行打分计算分值和平均值,然后根据分值与平均值对比,分出“高”“中”“低”,综合进行用户分层。

本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):

SQL取数与分析:

建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准。

关于打分标准:不同业务的用户消费频率、消费金额、精细化运营策略与成本……都是不同,一般常用”分位数“建立打分标准;由于SQL并不是专业得统计分析工具,计算分位数较为复杂,本次仅使用最大值和最小值的区间初略建立规则。

分位数:是指在统计学中把所有数值由小到大排列并分成几等份,取处于对应几个分割点位置的数值。

查询并计算R,F值创建视图:

引用RF数值表,分别查询R,F的最大值和最小值:

结合人工浏览的建立打分标准:

消费频率:由于人工浏览时发现很少有超过20次购买的,故消费频率在20以内四等分。

给R,F按价值打分:

计算价值的平均值:

用平均值和用户分类规则表比较得出用户分类:

查询各类用户数量:

由于缺失了商品价格部分的数据,本模块暂时没有分析结论。

5.诊断分析

通过描述性分析得到可视化的数据后,我们一般会先看一下是否符合业务常识,如:假设一个页面的UV(浏览人数)比PV(浏览次数)还高,那这个数据质量肯定是有问题的。

如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。

1)诊断分析结论

我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:

a.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。

正常:结合描述分析4中的活跃用户的增长。

c.一天内用户活跃的最高峰期为21点。

d.从2017年11月15日致2017年12月3日,活跃用户新增38%。

还需验证:如果是由于新注册用户或者老用户召回策略带来的增长符合常识,具体还需结合新注册用户数据和用户召回策略数据做验证。

e.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

这里的具体数据还需要结合用户生命周期运营的策略和数据做验证。

f.用户从浏览到购买整体转化率2.3%。

正常,根据之前了解到的电商数据,多种客单价的商品(几十~几千)在一起,整体转化率在2%~3%之间,当然具体还需要结合历史的同比,环比数据取看。

g.用户从浏览到购买的路径主要有4条,路径越长转化率越低。

正常:从流量的角度,每多一个步骤就会多一些用户流失这个符合常识。

h.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

待验证:假设淘宝会给高转化的爆款商品更多的曝光,商品浏览量呈金字塔分布是正常的。

i.浏览量TOP100的商品所属类目中,4756105、3607361、4357323三个类目浏览量远超其他类目。

还需验证:抽取购买购买次数判断这个几个类目商品类型是否是高频刚需类型的呢?

j.从商品看:有17款商品转化率超过了1。

不正常:

还需验证:是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?

k.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

还需验证:是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?

2)假设与验证

根据以上诊断分析我们梳理出了以下假设,做假设验证。

假设1:这些商品中有高转化率的爆款商品。

引用“商品转化率视图”查询排名前5的商品转化率:

对比同类目的其他商品转化率:

对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立。

假设2:4756105,3607361,4357323三个类目属于高频刚需类目。

抽取这几个类目的商品某买频次数据验证。

创建类目购买频次表:

计算类目购买频次平均值:

查询4756105、3607361、4357323三个类目的购买频次:

4756105、3607361、4357323三个类目的用户购买频次明显高于平均值,假设成立。

假设3:有部分用户是未点击商详直接从收藏和购物车购买的。

查询转化率超过1的商品的用户行为数据:

用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立。

假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”。

给浏览量TOP100的商品和转化率TOP100的商品做匹配看其中重合的商品有多少。

用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立。

3)结论:

用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高;在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。

用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%;当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。

平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。

以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。

本文由@小叮当v1.6原创发布于人人都是产品经理。未经许可,禁止转载。

THE END
1.国家开放大学23春网店运营与管理形考任务100分答案8.场景营销的特点是() A.公平性 B.多样性 C.随机性 D.不相关性 9.网店可以从()角度选择商品类目 A.网店商品 B.关键词 C.商品价格 D.平台优质网店 10.目标人群定位的方法有()。 A.价格定位 B.地域定位 C.职业定位 D.年龄定位 11.留存率越高,意味着用户使用商品的时间越长,他们能够为商品带来现金流...http://www.aopen255.com/show/57006.html
2.帮助中心商品类目迁移操作指导手册 一、类目迁移工具使用场景 使用场景:应用于商家在末级类目之间进行商品迁移,以更换商品所属末级类目。其末级类目为三级类目或四级类目。 系统路径:商家后台-商品管理-在售商品管理/待售商品管理-修改商品-修改类目 二、 定义 迁出类目:商品的原类目,通常指末级类目。https://helpcenter.jd.com/vender/issue/1000-44501.html
3.关于移动端电商类目导航设计,你可以先看看这些经验1、类目导航最高效的适用场景是:用户有购物欲望,但无法确定所要购买具体商品型号; 2、按照商品属性分类仅仅是类目导航的一个基本的维度,我们还可以尝试从使用场景、使用人群、品牌、个性推荐等维度进行更多的分类尝试,以便覆盖更多的用户场景; 3、在类目导航页增加类目运营活动是提高转化率的一个有效手段,值得尝试。 https://www.jianshu.com/p/47693b42bfdc
4.规则解读—女装类目预售使用条件商家售卖的商品类目所属服饰鞋包行业 近7天商家平均体验分大于等于75分且物流分大于等于75(部分类目除外,实际以后台展示为准) 符合以上所有条件的商家,在统计周期内,设置现货订单占比和设置超长预售订单占比(指承诺超长预售>15天发货)没有达到规定目标值的(目标值以商家后台展示为准),系统将关闭“现货+预售”的使用...https://school.jinritemai.com/doudian/web/article/aHetZQLtZC8s
5.租赁商品嘲开发接入租赁场景类业务订单类型中 merchant_biz_type 为 STANDARD_RENT。注意:●标准租赁订单的商品类型必须是租赁商品,一笔订单只可包含一个商品,数量可以多份。●创建订单时须符合订单资金平衡校验:订单金额(order_price)=∑(计划付款金额(plan_pay_price))+运费(freight)。●首次创建订单时,仅允许创建第 1 阶段付款...https://opendocs.alipay.com/mini/0calzt
6.重要通知外卖饮品类目属性升级通知随着行业发展,外卖逐步由商家运营向商品运营模式转变,而商品类目和属性则是商品精细化运营的基础。 8月15日,将更新饮品类目的属性模板,届时饮品类目下的所有商品需按照新的属性模板填写商品信息。后续重点商品类目都将进行迭代:包括饮品、甜品、主食、中式菜肴、中式特色菜、小吃/小食、全球美食菜肴等。升级后的属性将广...https://developer.meituan.com/isv/announcement/detail?dockey=anno-all&id=announcement-3230
7.商品发布新增”上传1:1嘲图”功能通知1、功能开放说明:1:1白底图所有类目开放;3:4场景图仅部分类目开放(以发布页面为准); 2、前台导购场根据导购需要,将优先调用3:4场景图(针对部分开放的行业),其次调用1:1白底图,最后再调用商品图片第一张。 3、1:1白底图,后续将会在前台首页、搜索、推荐、频道、店铺等主要导购场景生效,生效时间预计从8月30...https://sell.aliexpress.com/zh/__pc/pP3dEcBpNx.htm
1.手淘详情页导购标题操作指南,商家配置入口来了它是一种结构化的标题文字表达,具备精炼简短、可读性高的优势,并且商家可以自定义商品利益点。经过平台内测发现,这类短标题模式,更易吸引消费者的点击。 二、应用场景 商家填写的导购标题,审核通过后将在平台各渠道展现,以替代现有的长标题。目前主要的应用场景有:搜索端,新版商品详情页(无线端即将逐步扩量),购物车...https://www.fkdmg.com/mip/article/10995.html
2.天猫新增医疗及降服务/体检/疫苗服务类目商品发布规范5、“商品有效期”属性:“医学美容”、“整形手术”、“口腔护理/治疗”三个二级类目的商品有效期不得超过90天,其余二级类目的商品有效期不得超过365天。 (二)商品详情: 1、服务项目内容、注意事项、适用人群、禁忌症、操作方式、医疗项目风险、服务预约注意事项等需在详情页显著位置进行准确描述。商品页面不得出现...https://www.shuaishou.com/school/infos66243.html
3.亚马逊自动广告与手动广告全解析!5. 测试流量标签与A/B测试:利用流量标签分析不同流量来源的效果,了解哪些渠道为广告带来了更多的有效流量。通过A/B测试不同版本的商品详情页和广告内容,比较它们的点击率、转化率等指标,找出最佳的元素组合,应用到实际的广告和产品页面中,不断提升广告效果。 https://www.amz123.com/t/2UnRUGVs
4.淘宝运营篇:质量分及商品SKU异常规则解读,常见的违规嘲及整改建议淘系商家注意啦,淘宝质量分有新的规则定义,另外商品存在无效sku(sku描述为信息说明,不可售)、非主品sku(样品、赠品、配件及和商品所属类目无关的sku)、违禁词等,或主图&标题&属性摘要信息所指向的SKU、主图价、券后价不一致商家们要进行整改哦。快进来了解具体细则吧。 https://www.mgzxzs.com/tbtmxw/11308.html
5.电商系统之商品类目及商品属性史多样化的运营需求:后台类目比较死板,前台类目可以更灵活的服务于不同场景下的运营需求,将相关商品绑定到指定前台类目下。 丰富后台类目的灵活性:后台类目一般比较死板,适合标准化管理,而且很多时候供应端和需求端是不同的部门,康威定律,跨组织协调成本比较高,分离之后前后台类目自己团队单独管理,互不影响,效率更高。 https://blog.csdn.net/peter7_zhang/article/details/116470371
6.京东平台特色业务规则京东工业厂直模式履约及违规管理规则,晓多带...18.1 供应商应当按照订单明细和商详页商品描述进行发货,客户投诉商品存在少配件、少赠品,少商品的(简称“少件”),或未提前获得客户同意,并于邮件报备完成前,进行部分发货。 18.2 供应商需在接到投诉的24小时内向客户补发少件商品,双方另行约定补发时间的除外,商品补发费用由供应商承担。 https://www.xiaoduoai.com/blog/3400.html
7.以下哪个嘲违反了天猫赠品的发货时间规定?A赠品的发货时间应当...以下哪个场景违反了天猫赠品的发货时间规定? A赠品的发货时间应当和交易商品承诺或规定的发货时间相一致。 B赠品的发货时间只要在商品页面描述说明即可 C双方对赠品发货时间另有约定的,从其约定。 D大促期间,赠品的发货时间必须主品发货时间保持一致。 查看参考答案...https://www.shangxueba.cn/hangye/E7ZZE342.html
8.2018天猫淘宝双11(双十一)活动攻略详解电商热搜场景特殊处理:以下类目下活动商品收货地为偏远地区*的,商家可不提供包邮服务:置地/升降晾晒衣架、收纳柜、沐浴桶/沐浴盆、足浴盆/足浴桶、饮料、乳制品、大米、食用油/调味油、自行车、三轮车、儿童电动车、扭扭车、婴儿手推车/学步车、儿童房/桌椅/家具、汽车座椅、童床/婴儿床/摇篮/餐椅、床护栏、旅行箱类目。https://www.ebrun.com/art/300240.shtml