一个比较成熟的画像系统会有成百上千的标签,这些标签的生产不是一次完成的,而是随着业务的发展需要,逐步补充完善,最终呈现在大家眼前的就是一棵庞大的标签树。
图11-2用户画像整体架构示例
1.基本属性
基本属性是指一个用户的基本社会属性和变更频率低的平台特征,例如真实社会年龄、性别、婚姻状况、昵称、号码、账号、IBS等标签。这些标签类型多为直采型,可从用户基本信息表中直接获取,不需要统计或者算法挖掘。示例:社会性别_女。
2.平台属性
平台属性是用户在平台上表现出的基本属性特征,是利用用户行为进行算法挖掘,标识用户真实属性的标签。
典型的平台属性标签有平台年龄标签,这里你可能有个疑问,为什么在用户的基础属性中已经有年龄标签,但在平台属性中又有一个呢?这就涉及两者之间的差别。设想一个真实的场景,一个用户的社会年龄为20岁,但他喜欢中年人的穿衣风格,在使用App购物的时候,表现出的真实偏好是30~40岁的。对于这类使用产品时表现出的用户心智和真实年龄不相符合的用户,如果只采用用户上传的基本属性来为其推荐产品,是不是很难命中个体用户的兴趣呢?
两种不同的标签,本质上是用户自己上传信息的随意性和挖掘信息的权威性差异,是用户社会属性和真实属性差异。我们仔细分析一下两者在数据源、计算逻辑、标签格式、标签值和应用场景等方面的差异,如下。
(1)数据源与计算逻辑方面基本属性直接利用用户自行上传的、存储在用户基本信息表里的数据,平台属性则利用客户端或者服务端埋点上报采集的用户行为数据进行挖掘计算生成。基本属性是典型的直采型标签,平台属性是典型的算法挖掘型标签。
(2)末级标签和输出标签值方面以性别为例,基本属性代表用户真实的社会身份,是确定的事实,典型标签形式为“性别_女”,而平台属性则代表用户在性别维度的偏好概率,典型形式为“性别_女_0.80”,其中“女”为末级标签,“0.80”则代表用户在平台的女性身份上表现出的倾向程度。
3.行为属性
4.产品偏好
产品偏好是对用户使用某些产品、产品核心功能或者其他渠道的偏好程度的刻画,属于挖掘型标签,其中产品的选取可以包括自家产品、竞品;功能和渠道既包括站内产品功能,也包括push、短信、开屏、弹窗等几大运营和产品法宝。示例:搜索模块偏好、直接竞品_京东偏好、短信偏好。
5.兴趣偏好
兴趣偏好是用户画像内非常重要的维度,以电商产品为例,用户对商品的喜爱程度是用户最终的信息之一,兴趣偏好是对用户和物品之间的关系进行深度刻画的重要标签,其中最典型的是品牌偏好、类目偏好和标签偏好。示例:品牌偏好_优衣库_0.91、类目偏好_美妆_0.80、标签偏好_红色_0.70。
6.敏感度
在做营销活动时,我们留意到有些用户不需要优惠也会下单,而有些用户一定要有优惠券刺激才会下单,而且优惠券的额度会影响其下单的金额。这种情况下,如何识别出对优惠敏感的用户并为其发放合理券额的优惠券,保证优惠券不浪费,从而使促销活动的ROI最大?其中一个很重要的标签就是用户的敏感度标签。敏感度代表用户对平台活动或者优惠的敏感程度,也是典型的挖掘类标签。示例:热点敏感度、折扣敏感度。
7.消费属性
8.用户生命周期及用户价值
用户生命周期是用户运营的重要法典,一个用户从进入产品到离开,通常会经历“新手”“成长”“成熟”“衰退”“流失”这5个典型阶段,每个阶段对用户的运营都存在策略差异,画像在其中的作用是明确标记用户所处生命周期的阶段,便于后续业务人员落地。用户价值是体现用户为产品贡献价值高低的标签,最经典的是通过RFM模型获得交易维度标签,此外,也应该看到用户的其他价值,例如为产品贡献活跃度,通过裂变拉来新用户,这些都可设计相应的标签。示例:新手、成长、成熟、衰退、流失、高价值用户、VIP等级等。
二、用户画像从1到100的构建思路
用户画像的主要目的有以下3个:
·用于用户信息的统计,建立对产品、对用户的基本认知;
·用于用户定向营销,利用人群圈选投放物料;
·用于算法,沉淀用户特征,供模型使用。标签的完善也可以按照这3个维度不断丰富。
1.用于统计,对产品、对用户的基本认知
每个产品功能策略的完善,都需要建立在对产品、对用户的充分认知基础上,也就是说,用户是谁,有何特点,基本情况如何,这些是用户画像需要回答的重要问题。
思路拆解:既然要了解用户的基础信息,就需要将用户基本属性进行拆解,包括年龄、性别、居住城市(几线)、家庭结构(婚否、孩否)等。为了盈利考虑,还需要了解基本的收入水平、消费能力等。将拆解的维度抽象,构建对应标签,然后进行分布统计,便能生成一份基本的用户认知报告。
标签结果:年龄、性别等。
2.用于定向营销和精细化运营
运营人员作为画像的重要业务适用方,每天都会通过标签圈选人群,做定向的用户、活动、内容精细化运营,以及各app每天都在进行的促销活动。这些运营和活动的场景分布在产品的各个渠道和各个资源位,对场景和人群的精细程度要求都很高。
举一个日常工作中最常见的需求,通过一次数据分析发现,产品的流失用户占比提升,经过讨论,大家认为一次结合利益点的push推送是召回流失用户的有效且快速的手段;同时push作为各个业务都在争取的有限资源,希望可以提高使用效率,确保push这个资源渠道的整体roi。以上需求希望画像可以支持。
思路拆解:从这个需求背景中,我们做一次关键词提取,不难发现,关键词是“流失用户”“利益点”“push”“效率”。其中“流失用户”是用户身份识别,“利益点”是用户优惠敏感度,“push”是产品渠道资源,“效率”意味着要尽可能确保圈选人群精准,不能为了覆盖率牺牲准确率。
具体落地步骤如下:
第一步,确定流失用户的口径和标签。这里需要用到用户生命周期的划分,从中识别并标识出流失用户。
第二步,分析对流失用户拉回效果最好的利益点。例如优惠券、折扣、礼品或其他内容。这一步需要运营和数据开发人员根据日常经验和数据分析完成,对于画像的要求是基于分析结论,挖掘不同用户对于优惠折扣的敏感程度,这一点在前面介绍敏感度标签时有论述,最终目的是确保将每一分钱都花在刀刃上。
第三步,确定拉回的明确目标。是拉回规模还是准确率。通过需求分析可以确定,本次拉回在资源有限的情况下,需要提升人群识别的准确率。画像实现准确率的方法有两个,一是提升画像算法的准确率,这部分主要依赖算法本身,无法一蹴而就,因此这里选择第二个方法,即增加人群圈选的条件,也就是新增标签,供圈选求交。
根据背景分析,我们可以增加流失用户关于push渠道打开意愿的标签,提高push资源的使用效率。
经过上述分析,需要生产的标签如下:
·用户生命周期_流失
·用户折扣优惠敏感度
通过以上需求分析和思路拆解,画像的建设过程应该比较明确了,这里再留一个思考的案例,可以尝试分析如何落地:平台新上一款商品,初期需要在某模块展示给目标用户做推广,同时尽量不打扰非目标用户,且不降低该资源位的整体转化效率。思路拆解:商品的目标用户——商品可以按照哪些维度拆分关键信息?模块位置——用户的模块功能使用偏好是什么?准确率的要求——如何提升画像应用的准确率?回答好以上问题,这个需求的标签便能顺利获得。
思路拆解:召回的作用是粗筛,帮助推荐系统计算第一道用户兴趣池。这里用户对物品的兴趣可拆解为对商品品牌、类目和商品标签的兴趣,这就转化为前面介绍的内容了,用户标签中有品牌偏好标签、类目偏好标签和标签偏好标签,只需要在所有品牌、类目、标签下维护一个按照商品质量或者热度降序排列的列表,这样只要获取到用户标识,便能从用户画像中获取偏好的品牌、类目和标签。再从品牌、类目和标签下的商品列表中召回相应的商品,根据候选集大小的设计,做topk截断召回。这样,这部分商品就完成初步的召回,为进入下一个流程进行粗排和精排做好了准备。
三、单个用户标签的做法
1、用户标签的生产流程
(1)标签定义:给出标签的定义,即发生什么行为的用户可以打上这个标签。
一个用户标签是由用户的不同历史行为组合而成的,可以写成y=∑fn(x),其中fn(x)是单个的用户行为。所以标签的定义主要是指这个标签包括哪些用户行为,这些用户行为以什么方式组合计算。
(2)用户行为获取:探究不同的用户行为的获取难度,包括怎么获取数据、怎么处理数据。
因为获取到的用户行为是给算法或者规则计算用的,所以获取的用户行为五要素中,内容要经过结构化后才算是获取了一条有用的数据。
商品结构化后,会有商品标签;促销方式结构化后,会有促销标签。
2)数据质量检查。数据从采集到使用的过程中会出现各种数据质量问题。在获取数据时,要先做数据质量的检查和改善,需要注意以下几点:
·人工标注的数据质量;
·中间过程中使用算法计算的环节会有准确率的问题;
·如果是用户人工填写/选择,也会有错误、不全等问题;
·数据处理流程中的无效、失效数据。
3)基础数据获取。内容结构化和数据质量检查可能需要一些新数据,而这些数据需要开发新功能才能获取到,这个开发新功能获取新数据的过程就叫基础数据获取。
(3)模型设计:经过分析,确定了哪些行为之后,就可以进行模型的设计。
(4)标签计算:对原始用户行为数据进行计算,生成标签。
(5)标签评估:对生产的标签进行评估,看准确率、覆盖率等指标是否达到预期。
图11-3用户标签的生产流程
四、算法标签的一般生产流程
1、标签定义分析
示例如下:
用户标志_偏好_类目偏好_衣服_0.83
用户标志_偏好_类目偏好_帽子_0.12
这里的“0.83”和“0.12”就是我们需要计算的标签属性值。
2、用户行为获取(特征探查)
用户行为获取的难点和重点有两个:新用户行为如何获取,是否用户的全部行为都需要参与计算。
(1)新用户的行为如何获取新用户行为的获取方式有以下两种。
(2)是否全部行为都需要参与计算
这个问题的答案一定是否定的,尤其是画像建设初期,不宜一次加入过多特征训练,因为结果很难把控。行为特征选择依据,可以参考两个标准。
·该行为是不是影响用户决策的核心因子。
·该行为是否稀疏。很多行为虽然重要,但因为操作门槛高,数据稀疏,一样影响模型的训练,初期可以不引入。
3、模型设计
(1)标注数据
(2)训练集建模
1)明确哪些特征属于重要特征
仍以电商为例,特征一共分为4个维度:用户的特征、物品的特征、用户—物品的多维特征和环境特征。在每一个维度内,最能影响业务表现的特征是什么,这是产品经理要明确的问题。
例如某个以GMV为优化目标的商品列表场景,影响最终收入的因素如下。
·用户侧:用户的年龄、性别、经济能力、客单价和历史订单GMV等,这些都属于影响用户付费的重要因素。
·物品侧:除了物品的文本、图片信息外,价格和近期价格变动以及优惠程度也是重要特征。
这些重要的业务特征,都需要产品经理通过数据分析和日常经验的积累,转化为模型的特征,帮助算法更好地输出符合需求的结果。
2)评估特征的权重值是否符合业务认知人工提供有效特征是建模前的步骤,算法在训练完成后,也会输出各特征所对应的真实权重,当算法输出特征和对应权重的时候,产品经理一方面需要根据自己的经验,判断这些权重的合理性;另一方面,需要从这些特征中抽象出真实有效的决策信息,沉淀为自己的经验,便于建立更完整的业务认知。
(3)测试集验证
除了auc等离线测试算法的指标以外,具体还需要在线上进行a/b测试。
(4)画像加工
1)确定衰减方案
2)更新频率
3)数据归一
经过以上步骤,便可以得到一个动态的、不断更新的、准确的偏好标签了。
五、加入内容标签的用户标签生产流程
比如,要定义标签“宠物行业偏好”,可以拆为以下用户行为。
用户行为三:购买宠物类别的商品。
用户行为五:……
另外,最好把用户历史行为数据找出来验证,看看自己的定义对不对。
2、内容标签制作
(1)内容标签制作方法
1)直采型
·b端用户输入;
·c端用户输入;
·公司职能部门输入
2)规则型
3)算法型
·直采型:人工标注团队输入;
·直采型:客户输入;
3、用户标签模型设计
·直采型
·统计型
·挖掘型
六、用户画像的效果验收
线上部分:a/b测试
离线部分:算法指标验收、分布验证、交叉验证和抽样评测四种方案。
1、算法指标验收
算法指标是对算法能力的评测,例如机器学习,常用指标为AUC、AUC提升率、召回率及准确率四大指标。AUC是算法的常用指标;提升率则是跟之前的迭代对比,评估本次的提升幅度;召回率和准确率是算法基础指标,用以评估标签的覆盖情况和准确情况。
2、分布验证
分布验证是算法标签的过程验证方法,一个算法标签做完,输出结果是海量的“用户标识–分值”对,如何验证这些“用户标识–分值”和合理性呢,方法是选取待校验的标签和标签值,再选取最能影响用户在该标签分值的一个单点行为,比较分值和行为在用户轴上的分布情况。
以类目偏好标签为例,如图119所示,第一个分布图横坐标是用户,纵坐标是类目偏好的分值;第二个分布图横坐标也是用户,纵坐标则选取最能代表用户对类目偏好程度的下单行为——用户订单量。将两者进行对比。
图11-9标签用户分布与真实行为分布对比
可以看到,用户和具体标签值分布呈现“L”型,用户和用户订单量呈现“S”型,两者存在较大的差异。这里值得一提的是,分布验证是过程验证方法之一,不是衡量线上最终效果的唯一指标,有些情况下不能一概而论,认为标签错误,但是可以作为标签的一个重要优化方向。
3、交叉验证
交叉验证的前提:用已经验证过的正确标签和新标签做交叉,得到较为综合的用户特征,再根据经验判断新标签是否合理。
4、抽样评测
例如在用户兴趣偏好标签输出后,统计用户3个月内不同类目标签的点击次数(点击行为比较能够代表用户的意愿),如果兴趣分值高但实际点击次数非常低,则认为标签是有问题的。没有问题的数据占比即是抽样评测的准确率。
七、标签系统注意事项
1、做好mvp测试机制
MVP是指最小可行性产品,本质是为了加快迭代速度,以便获取认知。