保险业有着大量的数据,对其中蕴含的信息,需要通过数据分析和挖掘的手段进行提取,并应用于客户分析、产品分析、理赔分析、风险控制等诸多方面。
本文利用一份包含约2万条索赔信息的保险数据集进行分析和挖掘。其中每一条信息涵盖索赔额、赔付额、渠道、地域以及客户的性别、年龄等。主要考查支付额、索赔额以及两者的比值(在本文中称其为支索比)这几项指标的基本特征以及影响因素。然后利用机器学习建立用户画像。
二、数据初探
1.先看索赔额、支付额以及支索比三项指标的大致情况。
支付额约90%集中在1200元以内,低于650元的占比约75%,值得注意的是,为0元的占比接近40%。
索赔额则约90%集中在1900元以内,低于1300元的占比约75%,中位数是825元。
支索比约50%集中在0.58-0.78之间,为0的有40%(同支付额),其它部分占比约10%。
2.然后来看不同区域的情况
上图第一张是支付及索赔的总额,第二张是平均值。可以通过对比看出各省的情况。比如广东的总额高,但平均值低,则可以初步判断,广东省有较多的优质客户。
从区域上看,支索比由高到低依次是华南>华东>华北>东北>中南>西北>西南。
有一项特征为“服务中心”,其分析与对不同地区的分析过程基本相同,后面不赘述。
在2011年1月30-3月21日期间,华南地区人均支付额以12.8元/日的增幅上升,西南地区人均支付额则以3.2元/日的幅度下降。
4.查看不同年龄客户的差别,发现平均支付额和支索比随年龄变化的增减趋势并不明显,暂时判定年龄不是主要影响因素。
5.性别因素的影响。
可以看出,男性的索赔额、支付额、支索比均略高于女性,但差别不大。
6.客户提交索赔的渠道有通过医生、手机、网络三种。不同渠道的客户索赔情况。从总额来看,使用渠道比例由高到低依次是网络、手机、医生。通过医生的比例较少,而支索比偏高。原因可能是,通过该渠道的客户具备较好的经济条件,能够得到相对充分的建议。通过手机端的客户支索比则明显较低,分析其原因,由于手机操作的便利,该类客户在发起索赔时可能具有更大的随意性。
三、机器学习对客户进行分类(用户画像)
根据前面的分析,按照支索比为0,0-0.58,0.58-0.78,0.78-1将客户分为4类。选取省份、索赔渠道、性别,服务中心为基本特征组合,用k-邻近分类算法预测各种条件的客户会属于哪一类。
各项特征及客户类别转为整数值表示,同时将支索比缺失项定义为一个整数值。用交叉验证来观察模型的效果。设置两层循环,一层选取k折交叉验证中的最优k值,一层从基本特征组合中选取最佳组合。