话题一:数据挖掘在会员分析方面的应用
现在我们开始第一个话题的讨论:1、数据挖掘在会员分析方面的应用,包括并不限于会员分级、精准营销、交叉销售、流失分析等。
汪尚:
今天的机会真的很好,我之前一直做的是线下的分析,今天能和知乎的专家一起交流,刚好能够互补,也希望大家能够踊跃参与进来,把这个平台真正作为大家共同的学习平台。
在数据分析技术不断推陈出新、企业数据积累越来越丰富、大数据技术被应用越来越广泛的今天,对比国内外,重视的行业并不相同,我国仍然像之前那样重视信息化的还是像银行金融、互联网、运营商这些行业,而在零售、连锁经营(像百货、酒店、餐饮、药店、超市等)这些容易见效的行业却远不如国外。国外在这方面已经有20年的经验,像我们熟知的沃尔玛、肯德基、星巴克无不是以数据运营精细化管理。
由于这几年零售业发展面临的考验越来越严峻,国内一些企业已经开始重视对数据的应用。从这几年的发展来看,大数据挖掘在这些行业的应用主要存在这三方面的问题:
第一个问题:数据质量较差,这主要是之前对数据的采集和管理不够重视,我说的主要针对线下,电商除外,因为这些大的电商的数据质量还是很好的。
第三个问题:国内在这些方面的经验积累不够,还需要加大投入探索。
今天我就围绕零售行业跟大家一起探讨数据挖掘在零售业的解决方案,尤其是在会员分析方面的应用。针对会员的分析,主要有三大类:
1.如何进行会员分级
2.如何进行会员营销
3.如何进行会员挽留
接下来,咱们先针对会员分级进行交流,交流之前先了解一下会员的生命周期,如下图所示
一个顾客来了之后,一部分会成为会员,这部分会员之后有可能会变成活跃会员,也有可能会流失,而活跃的会员有的会继续活跃,也有的会变成沉默会员,沉默的会员有可能会被再次激活,也有可能会流失掉,这就是从顾客进来到最后可能保持也可能流失的大概生命周期。
那如何进行会员分级呢会员等级可以分为两类:
第二种,是以业务分析主题为目标的会员分级。比如,在百货商场,针对百货的会员建立客户等级,可以分成五个等级:A级(一买一大堆组)、B级(成长空间较大组)、C级(常来常往组)、D级(别人家的顾客)、E级(看我不顺眼组)。以上5个等级分别表示:A表示的含义是忠诚度最高的组,生活需要的方方面面都在这里购买;B表示对我认同度较大且还有很大消费潜力的组;C表示时常来这里,也时常去别家买东西的组;D表示很少来这里买,主要去别家买的客户;E组表示对这里不满意而流失的客户。所以针对以上5个级别,每个级别都有运营措施,比如对E组的人重点做客户流失分析,对B组的人重点做向上迁移,加强B组向A组的转换,提高B组的消费量,等等吧。这两种体制相辅相成。线上第一种做的很好,有足够的重视,但是线下大部分做的不够好,很多大型的商场连会员信息采集都没有做好,又如何有足够的信息对这些会员进行分析。因此,完善会员分析首先应该完善第一种会员管理的等级制度。这也是我们最初给百货商场做会员分析遇到的一个难题。以上就是我对会员等级的两点看法,大家有什么要一起讨论的吗?
面包君:
前面汪总把会员分级的基本情况都讲到了。我介绍下我们怎么做潜在用户、活跃和流失的吧。
这是用户的生命周期流程,我们就不多说。
潜在用户怎么做呢?就是怎么解决数据挖掘中的冷启动问题。常规我们有两个方式:
1.经验判断:比如你推车主业务,前提是我要有车吧。比如你推理财产品,前提我有钱。
2.海投,通过GBDT决策树做投放优化,通过不停的召回样本,定义正负样本,来做预测。
应用到数据挖掘就是通过:
1.模型:
通过模型来做分类问题,就是判断用户会不会用我们这个产品或功能,根据大量的历史用户行为数据。
2.业务规则来做用户活跃
是什么意思呢,就是比如我都已经知道你这个月手机欠费了,当然拿到你的这个信息直接给你push一下手机充值的消费。
实际我们在做模型拉新和活跃的时候也发现。比如一般充值业务拉新模型的转化率是3%,活跃能做到30%。这也验证了为什么我们要做老用户活跃,拉新要做精准化,尽量少海投。
那么我们怎么看待我们的会员忠诚度和价值呢?
会员价值包括历史价值、当前价值、影响价值和未来价值。比例大致在2:5:1:2。所以当你在给会员价值打分的时候,需要结合他多方面的影响来权重考虑。对应不同的业务,每个会员的得分都会不同,我们打分的模型常用LR/RF/MLR/PS-LR,最后决定给他推什么业务,会有融合排序的过程,结合这个业务的conversion%和modelaccuracy%,来说为什么不仅不是不操心用户流失,还可以是更担忧这样的问题!
特别是我们讨厌薅羊毛的用户,什么意思,就是他只是来领了个红包就走了!
话题一自由讨论
同学提问一:哪些指标可以衡量客户的活跃度?
C_:活跃度除了消费次数和积分使用次数一般还能用什么数据去确定?
汪尚:如果是线上的话,还有一个方面可以衡量,就是用户消费的关联度。
瘦蚂蚱:消费关联度是什么含义?
汪尚:这个关联度,可以是该会员消费对其他人的带动,也可以指消费产品品类数。
ィ鬼:有什么比较量化的公式,或者比率来划分等级么?
瘦蚂蚱:这个就是从两个不同的维度来解释了
汪尚:嗯,对,很多指标的定义都和自己的业务目标有关
C_:如果需要几个维度确实活跃度,这几个维度的权重如何确定。业务人员打分还是有什么方法?
汪尚:并不唯一,虽然很多有统一的标准,但是也该根据自己的业务特征建立更适合自己的计算规则。
汪尚:挖掘分析的指标确定可以是多维的也可以是单一维度的。
同学提问二:请问怎么识别伪关联?
面包君:关联出来的结果肯定要经过和运营、产品的人碰过之后得出的结论,数据方面的比如我们做关联分析的时候,置信度、支持度要大于多少,以及最终做出的分析结果是否和事实吻合,和啤酒与尿布类同。
布拉德:怎么判断分析结果和事实吻合呢
面包君:昨天我给杭州的一家App公司讲数据运营的时候也说道,我们怎么去做数据分析。数据是客观的、是事实,但分析是人的事情,是需要经验和判断的。
汪尚:这也是挖掘的难点之一
Rui:业务和技术,比重大概多少?
金融:7/3
Rui:还是业务重要多哈
同学提问三:线下的数据质量肯定比线上要差,对于质量差的数据,有什么经验的处理方法呢?
汪尚:其实数据质量差是普遍现象,我们应该更关心基于现有的数据如何把预测效果做的更好。数据质量的处理一般通过数据探索发现清除数据质量差的记录的规则,而很多时候数据的异常恰恰可以通过调研获取背后的业务原因,进而找到过滤和处理办法。
比如说我们做百货会员分析的时候,遇到这样的情况,有的人退货次数特别异常,也有的消费金额特别异常。比如有个会员,一年内退货金额达到19万多,还有的9个月内退货次数达到135次,我们细一分析,才明白这种情况是伪会员导致的。比如咱们去大多数商场购物没有会员卡也肯定可以打折,为什么呢?因为绝对有人愿意你使用他们的会员卡,这样可以帮他积分,也可以帮你打折、互惠,但是如果一个会员卡这种事情做多了。比如销售员的,那个这个会员卡代表的已经不是一个真正的会员了。所以在研究会员的时候必须剔除,那如果商场指定自己员工的会员卡排除掉这些是不是就可以了?遗憾的是商场并不掌握这个信息,也无法获取这个信息,怎么办?只有根据这种伪会员的使用特征,如一天消费次数达到多少以上,或者是否大量购买同一品牌等。但是这样肯定不能把伪会员去除干净,但是好在关系不大,只要剩下的对分析结果影响不大就好了,也就是挖掘的推断估计。
以上就说的是去伪的问题,其他的数据质量问题也大多如此解决。
C_:如果数据分析结果比如关联分析结果与实际不符,那么该怎么办唉
汪尚:那就要想一个问题,为什么不符?其实这种情况出现正常,出现在应用的时候就不正常。模型或者规则获得后,一定要做重新分的模型测试和评估。如果测试结果不理想,就要反推原因,这是咱们深入业务分析的重点。我们的业务能力也正是在这样反复的纠正和反思中得到不断提升的。之所以分析和实际不符,有个很大的原因就是数据会骗人。而且你被骗了,我们很多时候在初始分析的时候,忽略的数据产生的背景,一切数据已经过时了,但是我们没有注意到还是把它放到了分析数据中,结果就干扰了我们的分析结果。
C_:比如说之前做的电器的关联。业务人员会认为空调跟厨卫关联性最大。但数据并不是这样。
内心召唤:伪会员数量应该不会有很多吧?会影响分析结果吗,是否可以不用考虑剔除这些数据呢,只要多数数据是正确的应该就可以吧,我们看的是大体的趋势啊,不知道我这种观点对否?
汪尚:不会很多,但是影响很大
内心召唤:能说说影响是什么吗?
汪尚:因为他们的消费频次和消费金额普遍的大,显得普遍的“重要”。如果你验证出来和业务认识不一样,恭喜你,这就是你的成果。数据挖掘本来就有做数据验证的作用。
狗狗:去伪的时候有可能也会去掉真实的数据,所以这只是一个分析的方法,看的是趋势,而不见得是百分百的准确数据吧。
陈斌:关键还要能解释不一样不然只会被怀疑呢
汪尚:如果您能再深入一下为什么如之前的认识不符时,恭喜你你又有了更大的成果,帮助业务也帮住自己更懂业务了。
同学提问四:数据采集的工作能否简化?
面包君:@第二个寒字这些标签都需要建立用户标签库、行为基因库的。这些都是常用的特征指标。
汪尚:没有办法简化,我们其实针对百货会员派生了上百的字段,最终只是从这上百字段中找出了这几个重要的做的分析。
话题二:用户画像的研究
用户画像我们主要是这6个维度。
这里面会大概有600多个标签,有原始数据、也有通过模型预测的。
比如你是多大、性别这些都是知道,但是你什么时候生孩子、什么时候结婚都是预测的。
用户画像做什么用?个性化,精准化营销!
方式有两种,一种是传统的BI的方式,描述用户画像的群体特征,比如我们的用户是理财小白,我们就要去想这些屌丝有什么习惯,给他们什么产品合适。
第二种方式就是机器学习,通过大数据训练的方式来做自动化的个性化营销。通过这些600多个特征的不同组合,训练出AUC大于0.7以上的model,再实测。
举个例子,就是我们在天猫logo做的“千人千面”。
基本思路:要实现这个目标,需具备以下3个条件:1)建立一个logo库:存放品牌ID/所属类目/logo图片/跳转链接等必要信息;2)有一套业务逻辑&数据模型算法,分析计算出每个人可能最想看到的品牌;3)有一套产品支持:利用推荐引擎产品和前端开发实现对应资源位的个性化展现;
我们会每天喝着茶,思考着人生,看看这些不同model跑出来的效果。
而围绕用户画像的传统BI的做法,是建立数据监控体系,有个类似会员健康度的东东。
差不多是这些,欢迎补充。
话题二自由讨论
同学提问一:现在网购很多都是一个帐号,然后以家庭为单位,也就是说shopper和consumer很多时候不是一个人,这种情况下一般都怎么处理?
面包君:好问题!!!
林桐:面包君你们是怎么解决的,我也想听听。
面包君:这个问题也是我们在实际数据处理会遇到的。就是多个账号,多个不同用户,怎么去区别的。我们有个数据挖掘团队专门做这个事情,就是做自然人模型研究,他们还申请了专利。
黄晓帆:决战大数据这本书有提过这个问题。
林桐:也是同人模型啊。
Richie:这个就回到了第二个话题用户画像通过指标来分析,分组分情况对客户打标签。
面包君:我说的比较粗一些,通过媒介(常登陆手机、地点lbs、收货地址)、社会关系(给谁转账、给谁充值)、资金关系、手机通讯录等场景来做的同人模型。
悟:不能作为一个整体考虑吗?毕竟这个账号的所有使用者基本稳定。
春宇:@悟是的,我这种小白也是考虑整体考虑,不想那么细了。
林桐:对的,统一打标签。
春宇:但标签就没法画了,既买女士用品,又买剃须刀。
林桐:分业务场景也就是人群了。
这个在社交场景应用的比较多,就是把你老婆和你小三要区分出来。
林桐:对于数据种类多样性大家都很重要,那么基于用户的数据打通成为关键,这个是阿里用户数据的核心技术。
林桐:在此基础上,所谓的家庭关系,室友关系都可以基于此建立做用户连接及解决了。
同学提问二:如何确定你的研究对象的特征呢?说说基本的方法和思路?比如说你要去挖掘分析一个你不熟悉的的行业。
汪尚:企业用户标签的建立分三种,第一是基本标签,如年龄、性别,第二是统计标签,比如消费金额、消费频次等,第三是预测标签,如流失概率、客户偏好等。三种标签的建设分三个步骤完成。
首先是两个方向,第一是以数据驱动,从表中提炼;第二是业务驱动,从业务角度想你需要什么标签。第二种如何以业务驱动,这个比较笼统,业务不同也就不一样,但是大致做法就是做业务分析,看看从业务决策上看需要什么信息,多方访谈。那我们主要说第一种,从表中获取,分三个步骤:
第一,从表中体现用户基本信息(如果是建用户标签库的话),这个简单,都能理解;
第二,梳理表的业务,派生统计指标,常用度数值型有求和、平均、最大、最小以及比例,对于分类型的计算众数,频数等,具体也要业务和经验多想。
第三,是面向分析主题见预测模型,进而获得预测指标。
这是基本思路。
悟:流失概率,如何得到?
汪尚:流失概率,就是首先定义了流失目标字段,然后派生影响指标,然后建立分类预测模型得到相应概率。
面包君:这也是我们在做不同的场景推荐的时候,需要思考的问题。
1.结合自身已有的数据,比如我就只知道你叫什么,我怎么去分析你的星座啊;