在银行等金融机构的信贷业务中,围绕存量客户的数据分析与价值挖掘,始终是客户管理体系的核心思想。针对存量客户群体的类型划分与画像描述,是实现客户价值评估以及精准营销的重要前提,也是业务创益增收的必要条件。
1、客户分类与画像场景
2、实例样本介绍与分析
为了便于大家对客户分类与客户画像的进一步熟悉与理解,接下来我们围绕具体的实例样本数据,来完成客户样本数据的分类与画像。本文选取的样本数据包含10000条样本与9个字段,部分数据样例如图1所示。其中,id为样本客户主键,income_type、city_level、consume_index、bankcard_count等为特征变量,label为客户贷后逾期表现(1/0代表是否逾期),具体的特征字典如图2所示。
3、客户分类探索与实现
首先我们来对客户群体进行分类,这里不采用机器学习聚类算法来实现,而是通过某个业务解释性较好且区分度较好的特征来划分客户类别。从特征字典表可以看出,贷前信用评分score在客户综合风险的衡量维度上,可以很好的量化出客户之间的差异,从而在业务理解方面可实现客户的有效分类,因此我们将根据特征score来进行分析。这里需要注意的是,特征label(贷后逾期状态)虽然能够直接体现客户的风险程度,但将客群仅分为好坏2个分类对客户精细化管理的效果欠佳。在确定了客户分类的特征指标score之后,接下来需要明确的重点是围绕特征划分区间的具体标准。由于特征score的含义是信用风险评分,且样本观测均有好坏表现的标签label(0/1),因此可以通过不同分数区间的坏账率大小来实现客群分类。为了更全面描述信用评分的数据分布趋势,以及连续区间的坏账率变化情况,我们通过特征分箱的思想,将连续型的信用评分进行离散化,具体实现过程详见知识星球代码详情。,输出结果如图7所示。
编辑
添加图片注释,不超过140字(可选)
图7评分离散化结果
对于上图的评分分布,我们通过连续区间的数据表现可知,随着信用评分(score)的不断升高,坏账率(badrate)逐渐降低,具体分布如图8所示,单调性趋势较好,可以直接说明信用评分对用户风险的区分度效果是比较好的。
图8评分数据表现
根据评分score与坏账badrate的分布趋势,我们考虑将badrate较为接近的评分区间作为同一类别,同时结合区间样本量大小,将占比较大者单独成箱,占比较小着多箱合并。按照以上逻辑标准,围绕上图的客户评分表现结果,这里考虑将客户群体划分为6个类别,分别为:[382,434]、(434,460]、(460,486]、(486,513]、(513,539]、(539,644]。因此,客户群体通过信用评分score细分为6类,这里采用flag=1~6来表示,具体实现过程详见知识星球代码详情。,客户分类的频数分布如图10所示。