1、提出问题2、理解数据3、数据清洗4、数据分析(构建模型)5、数据可视化
1、电商数据分析指标
2、分析目的
希望通过以下3个问题了解淘宝:
1)、用户活跃规律(每天不同时段活跃情况和日活跃情况)是怎样的?
2)、用户从浏览到购买的转化情况?
3)、用户复购率是多少?销量top3的商品类目有哪些?
根据分析目的,本次分析从用户行为的用户数量、商品数量、商品类目数量、所有行为数量维度。结合AARRR模型和分析上述问题。涉及分析指标如下:
2、数据集介绍:
数据详细详细介绍:
1、选择字段
本次分析所有列字段都需要,所以全部选择。
2、列名重命名
原数据集没有列名,导入数据后,给数据对应列添加新列名。
3、删除重复数据
主键设置:user_id,item_id,和timestamp,删除重复值。
SELECTDISTINCTuser_id,item_id,timestampFROMuserbehaviors;4、检查是否有缺失值
导入数据时,已设置为NOTNULL。所以无缺失值。
5、格式一致化处理
CREATETABLEuserbehaviorAS(SELECTuser_id,item_id,category_id,behavior_type,timestamp,FROM_UNIXTIME(timestamp,'%Y-%m-%d')ASDate,FROM_UNIXTIME(timestamp,'%H')ASTimeFROMuserbehavior)执行结果:
6、异常值处理
SELECTMAX(Date),MIN(Date),MIN(Time),MAX(Time)FROMuserbehavior;执行结果:发现日期中有不在规定范围内的数据。接下来,删除异常数据。
异常数据的删除:
发现一共2459行日期不再规定范围内的数据,现已全部删除这些异常数据。
DELETEFROMuserbehaviorWHEREDate<'2017-11-25'ORDate>'2017-12-03';attention:需要解除mysql的的安全输入模式:执行命令SETSQL_SAFE_UPDATES=0;修改下数据库模式,再进行异常值的删除
四、构建模型(数据分析)
问题1:用户活跃规律(每天不同时段活跃情况和日活跃情况)是怎样的?(有用户行为的都为活跃用户)
分析发现:从2017.12.1开始,整个淘宝用户活跃数据陡增,数据的峰值出现在2017.12.2。对比上周末2017.11.25和2017.11.26的数据,发现2个周末数据相差很大。那么为什么2017.12.2和2017.12.3这两天的用户活跃数会高出这么多?
查看2017.12.2和2017.12.3两天点击商品页(浏览商品)的用户数目:
这9天里PV(浏览量),返回结果是:3431904
这9天里UV(用户数),返回结果是:37376
平均访问量是:3431904/37376=91.8
即每个用户平均访问了91个页面。
推测:平台是否在做什么活动?了解到,12月临近“双12”活动。是否是因为很多商家在12月1号开始做“双12”的活动预热,从而吸引大量用户活跃起来呢?如果在做活动,那么在这期间哪些商品类目(category_id)点击浏览量排名top10?
分析结果:发现浏览量前10的商品类目ID为:4756105,4145813,2355072,3607361,982926,2520377,4801426,1320293,3002561,2465336
attetion:求取浏览平均占比的方法:
attention:求取12-2和12-3两天的浏览次数的方法(即对应1157642)
从整体分析用户在一天中的活跃情况。
晚上21:00是用户最活跃的时候,他们的成交量是否也是最高的呢?
分析发现,成交量走势和时活跃量走势相似,成交量在一天也有两个黄金时段:10:00-17:00和20:00-00:00,21:00的成交量达到一天中的最高峰。这和时活跃的峰值一样,都是在21:00.说明晚上21:00,用户特别活跃,商品更容易成交。
问题2:用户从浏览到购买的转化情况?
用户行为中,只要用户行为为“buy”,即是完成了一次购买,形成一个订单。下面对订单进行分析
跳失率=浏览商品详情页即退出的次数/该页面总访问数(浏览即退出:浏览页面后就退出,未进行其他任何行为)=92643/3431903=2.69%
attetion:user_id仅浏览(pv),没有其它操作视为退出的次数;总的访问数不包括其它行为(buy,fav,cart)
分析显示,在整体用户行为数据中,购买行为只有76707/3833385约2%。说明98%的用户行为是没有成交购买商品的,严格来说,没有成交的用户行为都属于流失行为。用户在浏览商品详情页后出现大量的流失。
点击浏览商品详情页到购买的转化率是怎样的呢?
约为30%。说明加入购物车的用户,有30%的用户都会去购买商品。
商品浏览_加入购物车转化率=28122/37223=75.56%
数据结果显示,从用户点击浏览商品详情页到购买商品,用户浏览商品详情页—加入购物车的转化率很高,达75.56%,说明很多用户购买前有加入购物车的习惯;在加入购物车-购买环节,用户流失非常大,转化率30%,也就是说有约70%的用户加入购物车后流失了。在此购物流程中,购物车—购买环节是用户流失的关键节点。是什么原因造成用户流失的呢?
有可能的原因:加入购物车代表用户正在处于比较商品的阶段,或者等待平台活动,或者放在一起准备支付购买等等。
建议:1、在购物车环节,显示领券,降价等提示;2、向用户推送消息,如店铺活动,类似产品等
收藏_购买转化率=收藏商品购买用户数/收藏的用户数=3233/14949约为21.63%。
数据显示,用户收藏商品后,转化支付购买率为21.63%,78.37%的收藏用户流失了。从购物车-购买和收藏-购买两个购买流程来看,相比之下,用户购物习惯更偏向加入购物车购买。为什么呢?
推测:加入购物车可以直接统一下单,而收藏页面没有下单页面,必须点进商品页面才能下单。具体是什么原因,暂不确定,这里数据不足,不予分析。
购买总人数:25400,总购买次数:76707。人均购买次数:=76707/25400约为3.02次。
复购率=一定周期内下单次数在两次及两次以上的人数/总下单人数=(25400-8688)/25400约为65.80%。
在淘宝平台购物后,有65.80%的用户都会复购行为,淘宝平台和用户的粘性很高。有的用户购买次数高达到84次(图幅部分没有截图)。9天里有84次的购买行为,平均一天有9次购买行为,这不符合常理,为什么他们的购买次数如此高呢?是否存在刷单现象?进一步分析验证购买次数较高的用户平时购买情况,以及账户,购物,物流等信息才能判断。这里数据有限,不深入探究其原由。
总商品类目有:7106种
SELECTCOUNT(DISTINCTcategory_id)AS'商品类目数'FROMuserbehavior;商品类目的浏览top3情况在这9天内用户销量排名前三的商品类目分别是:4756105(浏览次数187540),4145813(浏览次数123887),2355072(浏览次数121627)
在这9天内用户销量排名前三的商品类目分别是:1464116(销量1211),2735466(销量1148)和4145813(销量1124)。
是否是用户浏览越多,购买越多呢?商品类目的浏览和购买排名一致吗?
分析发现:“购买”排名前三的商品类目和“浏览”的排名并不一致。用户浏览越多,购买却少,为什么呢?(可根据前面列出的用户在详情页流失分析思路进行分析)。“购买”和“浏览”均在前三的是商品类目是4145813.
那么商品类目category_id=4145813的商品销量情况又是怎样的呢?
在category_id=4145813中,商品销量排名前三名的是3122135,3031354和2964774。
问题4.参照RFM模型,对用户进行分类找出有价值的用户
RFM模型是衡量客户价值和客户创利能力的重要工具。该模型通过客户的最近交易行为(Recency)、交易频率(Frequency)以及交易金额(Monetary)三项指标来描述该客户的价值状况。一般来说,会将这三项指标分成几个区间进行评分,通过计算评分找到有价值的用户,并对用户进行分类。
R(Recency)最近的购买行为:
从上面对复购用户的分析中,我们也得知,有购买行为的用户,购买频率最高的能达到84次。所以,我们将1-84从低到高,划分为4个档次。1-18,19-36,37-54,55-84分别对应为1-4分。
下面对用户进行分类
对于重要保持用户,他们最近有购买,但购买频率不高,可以通过活动等提高其购买频率;
对于重要发展用户,他们虽然最近没有购买,但以往购买频率高,可以做触达,以防止流失;
对于一般价值用户,他们最近没有购买,以往购买频率也不高,特别容易流失,所以应该赠送优惠券或推送活动信息,唤醒购买意愿。
五、总结和建议
1)从2017.12.1开始,活跃用户数骤增,推测是因为临近“双12”活动,很多商家在开始做活动预热,浏览量top3的商品类目分别是4756105(浏览次数187540),4145813(浏览次数123887),2355072(浏览次数121627)。
2)淘宝平台与用户的黏度很高,人均每天浏览页面约11次。但根据用户行为的转化情况,用户在浏览商品详情页后大量流失,用户点击浏览商品详情页后的跳出率2.69%。淘宝用户基数很大,推测一个亿的用户行为数据,有2690000次跳出。
3)大部分用户在购买商品前有加入购物车的习惯,对比浏览-加购物车-购买和浏览-收藏-购买两条线,加入购物车购买的机率更大,购买转化率高8.37%。在购物车中可以一键全部下单,收藏夹需要单个下单和找“相似”端口,增加了流失的风险。
4)用户经常使用淘宝购物,淘宝整体复购率约为65.80%。这九天中最高购买频次达到72次,不符合常理,需要进一步验证。商品类目4145813在购买”和“浏览”均排名前三,在此期间很多用户对此类商品很感兴趣。
1)建议商家在用户行为黄金时段内,经常更新产品信息,黄金展位,活动推荐商品等。在活动前,增加发布产品数,优化产品关键词设置等方式增加曝光率。(AARRR第一环节:获取用户)
2)建议优化商品的详情页(打开速度,商品细节描述等),从语言和视觉传达角度打动用户,提高用户体验度。可以从参考竞品的优秀做法。(AARRR第二环节:激活用户)。
4)建议在“购物车”页面,显示出优惠券,减价,剩余库存或者已有多少人购买等信息,刺激用户购买商品。建议在“收藏”页面增设价格变动,显示有多少人收藏,剩余库存等信息,刺激用户下单购买。
建立用户画像,通过行为数据,查看用户最近列表页、搜索栏、收藏页、购物车都有看过或添加过哪些商品,针对用户自有属性进行定向推送,有效引导客户潜在的消费需求,全面提升复购率。(AARRR第四环节:增加收入)
5)建议优化产品,保证产品的质量,提高服务(售前,售后服务)质量,提高购物车—购买和收藏——购买的转化率。(AARRR第五环节:推荐)
用RFM模型对用户进行分类后,可知重要价值用户比较少,用户类型主要还是集中于重要保持用户和一般价值用户。建议根据用户类型,进行有针对性的精准营销。