项目案例之决策树在保险行业的应用

中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距

保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展发展环境。

互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

中国保险市场持续高速增长。根据银保监会数据,2011~2018年,全国保费收入从1.4万亿增长至3.8万亿,年复合增长率17.2%。2014年,中国保费收入突破2万亿,成为全球仅次于美国、日本的第三大新兴保险市场市场;2016年,中国整体保费收入突破3万亿,超过日本,成为全球第二大保险市场;2019年,中国保费收入有望突破4万亿。

发展现状

受保险行业结构转型时期影响,互联网保险整体发展受阻,2018年行业保费收入为1889亿元,较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛,2018年同比增长108%,主要由短期医疗险驱动

供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加发展现状强自营渠道建设及科技输出是未来的破局方法,渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。

互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升竟合格局:随着入局企业増增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态发展趋势

发展趋势

随着入局企业增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态。发展趋势

当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

衡量指标

业务目标

数据分析

分析流程框架

导入数据

df=pd.read_csv(r'data.csv',sep=',',header=0)

df.shape

(5000000,50)

数据探索性分析

描述性统计

在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。

type_0=df.dtypes

type_0.to_excel('original.xlsx')

#将KBM_INDV_ID的int64转化为object

df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')

describe=df.describe().T

type(describe)

describe.to_excel('../output/describe_var.xlsx')

#引入画图模块

plt.subplot(1,2,1)

sns.countplot(x='N2NCY',hue='resp_flag',data=df);#设置x,y以及颜色控制的变量,以及画图的数据

plt.xlabel('N2NCY');

plt.ylabel('Frequency');

#了解因变量的分布

Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()

print(Resp_count)

str(round(Resp_count[1]/len(df)*100,2))+str('%')#查看购买了

从这个图片我们可以看到,买了保险的用户和未买保险的人所处县的情况。

NextStep:

#检查是否有缺失的行

df.shape[0]-df.dropna().shape[0]###

#检查是否有缺失的列

len(df.columns)-df.dropna(axis=1).shape[1]#626

NA=df.isnull().sum()

print('orginalNA=',NA)

NA=NA.reset_index()

NA.columns=['Var','NA_count']

NA=NA[NA.NA_count>0].reset_index(drop=True)

print(NA)

NA.to_excel('../output/var_incl_na.xls',index=False)

####处理缺失值

var_char_na=[]

#我们对连续型数据进行中位数填补,然后对离散型数据进行特殊值填补,我们这里利用的是N

foriinrange(len(NA)):

ifNA['NA_count'][i]/len(df)>0.75orlen(df[NA['Var'][i]].unique())<=2:

deldf[NA['Var'][i]]

elifdf[NA['Var'][i]].dtypes!="object":

#填充缺失值-中位数

for_na_value=df[NA['Var'][i]].quantile(0.5)

#for_na_value

df[NA['Var'][i]]=df[NA['Var'][i]].fillna(for_na_value)

elifdf[NA['Var'][i]].dtypes=="object"andlen(df[NA['Var'][i]].unique())<=3:

df[NA['Var'][i]]=df[NA['Var'][i]].fillna('N',inplace=True)

else:

var_char_na.append(NA['Var'][i])

var_char_na

处理分类型变量

#DropVariablesthatarenotnecessary

drop_list=['STATE_NAME','KBM_INDV_ID']

forvarindrop_list:

deldf[var]

##检查数据集中数值型变量和字符型变量

var_num=[]

var_char_uniq2=[]

var_char_mul=[]

forvarinlist(df):

ifdf[var].dtypes=="object"andlen(df[var].unique())>2:

var_char_mul.append(var)

elifdf[var].dtypes!="object":

var_num.append(var)

var_char_uniq2.append(var)

##处理多值型字符变量

forvarinvar_char_mul:

temp=pd.get_dummies(df[var],prefix=var,prefix_sep='_')

print(temp)

forvar2inlist(temp):

ifvar2in'_nan':

deltemp[var2]

df=pd.concat([df,temp],axis=1)

deltemp

len(df.columns)##88

df.head(5)

df.to_excel('../output/data.xls',index=False)

##处理二值型的字符变量

fromsklearn.preprocessingimportLabelEncoder

definteger_encode(var):

values=np.array(df[var])

label_encoder=LabelEncoder()

df[var]=label_encoder.fit_transform(values)

forvarinvar_char_uniq2:

iflen(df[var].unique())<2:

else:integer_encode(var)

建模

#引用sklearn模块

fromsklearnimporttree

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.metricsimportclassification_report

#fromsklearnimportcross_validation,metrics

fromsklearnimportmetrics

fromsklearn.model_selectionimportcross_val_score

#fromsklearn.grid_searchimportGridSearchCV

fromsklearn.model_selectionimportGridSearchCV

rcParams['figure.figsize']=12,4

##在模型样本内将数据集7:3分,70%用来建模,30%用来测试

features=list(df.columns[1:])

X=df[features]

y=df['resp_flag']

#将数据集7:3分,70%用来建模,30%用来测试

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=.3)

clf=tree.DecisionTreeClassifier()

param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}

gsearch=GridSearchCV(estimator=clf,

param_grid=param_test,scoring='roc_auc',n_jobs=1,iid=False,cv=5)

gsearch.fit(X_train,y_train)

#gsearch.grid_scores_,gsearch.best_params_,gsearch.best_score_

gsearch.cv_results_,gsearch.best_params_,gsearch.best_score_

验证输出结果

clf=tree.DecisionTreeClassifier(

class_weight=None,

criterion='gini',

max_features=None,

max_leaf_nodes=8,

min_samples_leaf=2000,

min_samples_split=5000,

min_weight_fraction_leaf=0.0,

splitter='best')

results=modelfit(clf,X_train,y_train,X_test,y_test)

importos

importpydotplus

fromIPython.displayimportImage

fromsklearn.externals.siximportStringIO

#os.environ["PATH"]+=os.pathsep+'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'

dot_data=StringIO()

out_file=dot_data)

输出规则

if(df['meda'][i]<=56.5):

if(df['age'][i]<=70.5):

if(df['c210hva'][i]<=312.5):

if(df['ilor'][i]<=10.5):

temp=11

segment.append(temp)

temp=12

temp=8

if(df['tins'][i]<=5.5):

temp=9

temp=10

if(df['pdpe'][i]<=46.5):

if(df['MOBPLUS_M'][i]<=0.5):

temp=13

temp=14

temp=4

业务应用

第一类:

第二类:

这一类人群,是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

除此之外,我们还可以做什么呢?

了解客户需求

开发新的保险产品

数据分析咨询请扫描二维码

《Python数据分析极简入门》第2节8-1Pandas数据重塑-数据变形数据重塑(Reshaping)数据重塑,顾名思义就是给数据做各种变...

统计学基础-理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。数...

数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技...

数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数...

数据分析师:洞察力量的引擎数据分析师的兴起数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。...

数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将...

“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、...

一、引言背景介绍随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业...

《Python数据分析极简入门》第2节7Pandas分组聚合分组聚合(groupby)顾名思义就是分2步:先分组:根据某列数据的值进行...

数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容:数学和统计学...

数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力:统计...

数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需...

《Python数据分析极简入门》第2节6Pandas合并连接在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc...

《Python数据分析极简入门》第2节5Pandas数学计算importpandasaspdd=np.array([[81,&n...

数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面:基础知识:数据分析的基本概念...

数据分析适合在多个单位工作,包括但不限于以下领域:金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经...

数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面:数据收集与整理:数据分析师...

数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能:...

THE END
1.技术分析保险数据分析报告撰写指南:从数据收集到解读的全面...短线操作中,技术指标分析非常重要,如KDJ和MACD的金叉。https://www.55188.com/thread-27662046-1-1.html
2.保险年度工作总结报告10篇经管文库(原现金交易...以下是我预备的保险年度工作总结报告范文,欢迎借鉴学习。https://bbs.pinggu.org/thread-12695076-1-1.html
1.保险范文(整理20篇)下面小编给大家整理了保险范文,本文共20篇,供大家阅读参考。本文原稿由网友“zqms0002”提供。 篇1:...乙方有责任为甲方提供与基本医疗保险有关的材料和数据;甲方如需查看参保人员病历及有关资料、询问当事...保险公司须每季度和每年度向天津市(区县)财政部门报送《行政事业单位机动车辆统一保险情况分析报告》。 https://www.rajj122.com/wendang/qitafanwen/788301.html
2.深度解析,2023年保险***理赔年度报告——效率质量与服务创新...2、理赔中心车险分部在过去一年取得了显著成绩,总省公司将其定为数据年、服务年,我们积极响应,制定了高标准、严要求的年度工作计划,并确保各项措施得到有效执行。 3、在公司正确的领导下,依靠全体员工的共同努力,我们圆满完成了全年的营销任务,以下是我分管工作的具体总结,包括一年的成绩与不足之处。 http://benbenshu.com/5799b0699843.html
3.最新保险案例分享,保障故事,你不可不知的保障故事!摘要:最新保险案例分享,这些保障故事关乎每个人的生活,不可不知。通过真实的保险案例,了解保险的重要性和作用,为自己和家人提供全面的保障。这些案例涵盖了不同人群、不同风险领域的保险,展示了保险在风险应对和损失补偿方面的积极作用。无论是个人还是企业,都应该关注保险,为未来做好充分准备。 http://www.ntbqly.com/post/39120.html
4.医保数据分析整改报告范文(精选13篇)在人们越来越注重自身素养的今天,越来越多的事务都会使用到报告,报告具有语言陈述性的特点。相信很多朋友都对写报告感到非常苦恼吧,以下是小编为大家收集的医保数据分析整改报告范文,供大家参考借鉴,希望可以帮助到有需要的朋友。 医保数据分析整改报告 篇1 按照https://www.ruiwen.com/baogao/6743259.html
5.报表数据错误情况说明范文(实用16篇)③经营方式相近或相同。这些条件 自然 限制了比较分析法的应用范围。 报表数据错误情况说明范文 第5篇 (一) 企业及附属企业目前正在进行中的投资项目、技术改造、产品更新情况; (二) 本企业已经上马的项目最终批文和将要上马的项目申请及已得到的批文; https://www.77cxw.com/fl/1434386.html
6.银行高级风险经理岗位职责(范文五篇)岗位职责八、负责对担保业务的指导、检查和分析,总结和推广各事业部担保业务经验。 九、负责分析和研究公司的风险项目,吸取教训,定期组织案例分析会。 十、制定业务营销方案并组织实施。 十一、绩效考核计算情况的复核。 十二、撰写并按时报送周、月、季经营分析报告和年度工作总结。 十三、不定期组织本部门的员工进行业务学习...https://www.588k.com/qywd/gwzz/348557.html
7.关于学前教育的调研报告范文(通用11篇)实验幼儿园因公办教师不足,聘用了33名幼儿教师,需为其购买社会保险、支付工资;教学楼有近300平方米产权不属幼儿园,需要每年缴纳2.5万元的租赁费用,这种状况导致管理协调难、安全隐患大。目前,全区各公办及公办性质幼儿园所收费用均需上缴财政,但区财政难以及时拨付幼儿园,实验幼儿园的伙食费上缴财政后也不能及时拨付...https://mip.yjbys.com/diaoyanbaogao/1709620.html
8.中国知网平台全面收录国内正式期刊,提供学术热点、选题分析、智能荐刊、快速投稿等服务,并集成多种编校...[查看详情] 2024-11-14 华知大模型5.0正式发布 华知大模型5.0从技术参数、推理性能到数据语料进行全面升级,服务专业领域,解决专业问题。[查看详情] 2024-10-15 ...https://cnki.net/
9.保险公司员工工作总结定期对公司经营情况进行总结、分析,及时发现工作中的问题,把问题消灭在萌芽状态。业务分析可通过各项经营数据的对比,发现问题出现的原因和预计可能的结果,为公司经营决策提供依据。业务经营分析能够比较客观的反映公司经营情况,为营销、承保、理赔、等各个业务环节提供数据支持。车险经营中,通过分析转变了车险经营思路,调整了...https://www.fwsir.com/Article/html/Article_20230505095130_2795739.html
10.员工职业规划对自己想从事的职业要进行深入综合的分析,了解该职业所需的专业训练、能力、年龄、性格特点等要求,职业的性质、工作环境、福利待遇以及发展空间和就业竞争机会。除此之外,还要清楚公司文化和人文环境。这样就不会在费尽心思找到工作后,因为与自己的期望相差甚远而放弃工作机会。向阳生涯上千份案例数据显示,职场新人总是...https://www.oh100.com/zhichang/5540909.html
11.保险行业数据分析保险数据分析本次案例数据共有76个字段,字段繁多,在处理数据时,需要先将数据按照类别进行归类,方便理解查看。 4.1 基本信息 4.2 基本情况 4.3 家庭成员 4.4 家庭成员情况 4.5 疾病史 4.6 金融信息 4.7 个人习惯 4.8 家庭状况 4.9 居住城市 5. 分析思路 根据经验,我们可以大概判别哪些特征很可能和用户是否购买保险会有相关关系...https://blog.csdn.net/qq_36816848/article/details/113591095
12.中国大地保险数据管理应用中心大数据应用平台案例分析Cloudera是Hadoop生态系统中领先的大数据解决方案供应商,也是全球知名的企业级数据管理和数据分析平台提供商。Cloudera的CDH是成熟、稳定的Hadoop商业发布版本之一,拥有大量企业级大数据部署案例,并且能够提供专业、全面的技术支持服务。 因此,经过多个方面的综合考量,大地保险数据管理应用中心决定使用Hadoop平台作为整体架构,选择...https://bigdata.51cto.com/art/201902/592367.htm
13.个人销售工作计划范文集锦(15篇)总结起来,冷链销售经理的工作计划应当包括市场调研和分析、设定销售目标和策略、开发和维护客户关系、销售团队管理和培训以及销售数据分析和报告等方面。通过制定合理的工作计划,并不断优化和改进,冷链销售经理可以更好地完成销售任务,并提高企业的市场竞争力。 https://www.jy135.com/xiaoshoujihua/2473484.html
14.保险业数据合规系列解读之一——保险业数据合规典型案例分析近年来,保险业进入数字化转型的关键时期,又适逢《个人信息保护法》等法律规定出台实施,既需要发展数字化业务,又亟需提升数据合规水平。实践表明,保险业属于个人信息保护合规风险较高的领域,主管部门对数据合规的执法力度不断加大,保险企业被处罚的案例屡见不鲜,包括直接对从业人员和高管个人的处罚,甚至追究...https://www.kwm.com/cn/zh/insights/latest-thinking/data-compliance-in-insurance-industry-analysis-of-typical-cases.html
15.重灾区保险工作计划范文(多篇)重灾区保险工作计划 第一篇为进一步增强师生的防灾减灾意识,普及防灾减灾知识和技能,提高学校防灾减灾能力,保卫处决定在校内开展防灾减灾系列教育活动,现将有关事项通知如下:一、活动目的通过开展内容丰富、形。 重灾区保险工作计划范文 重灾区保险工作计划 第一篇 ...https://www.jsycf8.com/zhishizongjie/277646.html