项目案例之决策树在保险行业的应用

中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距

保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展发展环境。

互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

中国保险市场持续高速增长。根据银保监会数据,2011~2018年,全国保费收入从1.4万亿增长至3.8万亿,年复合增长率17.2%。2014年,中国保费收入突破2万亿,成为全球仅次于美国、日本的第三大新兴保险市场市场;2016年,中国整体保费收入突破3万亿,超过日本,成为全球第二大保险市场;2019年,中国保费收入有望突破4万亿。

发展现状

受保险行业结构转型时期影响,互联网保险整体发展受阻,2018年行业保费收入为1889亿元,较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛,2018年同比增长108%,主要由短期医疗险驱动

供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加发展现状强自营渠道建设及科技输出是未来的破局方法,渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。

互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升竟合格局:随着入局企业増增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态发展趋势

发展趋势

随着入局企业增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态。发展趋势

当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

衡量指标

业务目标

数据分析

分析流程框架

导入数据

df=pd.read_csv(r'data.csv',sep=',',header=0)

df.shape

(5000000,50)

数据探索性分析

描述性统计

在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。

type_0=df.dtypes

type_0.to_excel('original.xlsx')

#将KBM_INDV_ID的int64转化为object

df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')

describe=df.describe().T

type(describe)

describe.to_excel('../output/describe_var.xlsx')

#引入画图模块

plt.subplot(1,2,1)

sns.countplot(x='N2NCY',hue='resp_flag',data=df);#设置x,y以及颜色控制的变量,以及画图的数据

plt.xlabel('N2NCY');

plt.ylabel('Frequency');

#了解因变量的分布

Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()

print(Resp_count)

str(round(Resp_count[1]/len(df)*100,2))+str('%')#查看购买了

从这个图片我们可以看到,买了保险的用户和未买保险的人所处县的情况。

NextStep:

#检查是否有缺失的行

df.shape[0]-df.dropna().shape[0]###

#检查是否有缺失的列

len(df.columns)-df.dropna(axis=1).shape[1]#626

NA=df.isnull().sum()

print('orginalNA=',NA)

NA=NA.reset_index()

NA.columns=['Var','NA_count']

NA=NA[NA.NA_count>0].reset_index(drop=True)

print(NA)

NA.to_excel('../output/var_incl_na.xls',index=False)

####处理缺失值

var_char_na=[]

#我们对连续型数据进行中位数填补,然后对离散型数据进行特殊值填补,我们这里利用的是N

foriinrange(len(NA)):

ifNA['NA_count'][i]/len(df)>0.75orlen(df[NA['Var'][i]].unique())<=2:

deldf[NA['Var'][i]]

elifdf[NA['Var'][i]].dtypes!="object":

#填充缺失值-中位数

for_na_value=df[NA['Var'][i]].quantile(0.5)

#for_na_value

df[NA['Var'][i]]=df[NA['Var'][i]].fillna(for_na_value)

elifdf[NA['Var'][i]].dtypes=="object"andlen(df[NA['Var'][i]].unique())<=3:

df[NA['Var'][i]]=df[NA['Var'][i]].fillna('N',inplace=True)

else:

var_char_na.append(NA['Var'][i])

var_char_na

处理分类型变量

#DropVariablesthatarenotnecessary

drop_list=['STATE_NAME','KBM_INDV_ID']

forvarindrop_list:

deldf[var]

##检查数据集中数值型变量和字符型变量

var_num=[]

var_char_uniq2=[]

var_char_mul=[]

forvarinlist(df):

ifdf[var].dtypes=="object"andlen(df[var].unique())>2:

var_char_mul.append(var)

elifdf[var].dtypes!="object":

var_num.append(var)

var_char_uniq2.append(var)

##处理多值型字符变量

forvarinvar_char_mul:

temp=pd.get_dummies(df[var],prefix=var,prefix_sep='_')

print(temp)

forvar2inlist(temp):

ifvar2in'_nan':

deltemp[var2]

df=pd.concat([df,temp],axis=1)

deltemp

len(df.columns)##88

df.head(5)

df.to_excel('../output/data.xls',index=False)

##处理二值型的字符变量

fromsklearn.preprocessingimportLabelEncoder

definteger_encode(var):

values=np.array(df[var])

label_encoder=LabelEncoder()

df[var]=label_encoder.fit_transform(values)

forvarinvar_char_uniq2:

iflen(df[var].unique())<2:

else:integer_encode(var)

建模

#引用sklearn模块

fromsklearnimporttree

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.metricsimportclassification_report

#fromsklearnimportcross_validation,metrics

fromsklearnimportmetrics

fromsklearn.model_selectionimportcross_val_score

#fromsklearn.grid_searchimportGridSearchCV

fromsklearn.model_selectionimportGridSearchCV

rcParams['figure.figsize']=12,4

##在模型样本内将数据集7:3分,70%用来建模,30%用来测试

features=list(df.columns[1:])

X=df[features]

y=df['resp_flag']

#将数据集7:3分,70%用来建模,30%用来测试

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=.3)

clf=tree.DecisionTreeClassifier()

param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}

gsearch=GridSearchCV(estimator=clf,

param_grid=param_test,scoring='roc_auc',n_jobs=1,iid=False,cv=5)

gsearch.fit(X_train,y_train)

#gsearch.grid_scores_,gsearch.best_params_,gsearch.best_score_

gsearch.cv_results_,gsearch.best_params_,gsearch.best_score_

验证输出结果

clf=tree.DecisionTreeClassifier(

class_weight=None,

criterion='gini',

max_features=None,

max_leaf_nodes=8,

min_samples_leaf=2000,

min_samples_split=5000,

min_weight_fraction_leaf=0.0,

splitter='best')

results=modelfit(clf,X_train,y_train,X_test,y_test)

importos

importpydotplus

fromIPython.displayimportImage

fromsklearn.externals.siximportStringIO

#os.environ["PATH"]+=os.pathsep+'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'

dot_data=StringIO()

out_file=dot_data)

输出规则

if(df['meda'][i]<=56.5):

if(df['age'][i]<=70.5):

if(df['c210hva'][i]<=312.5):

if(df['ilor'][i]<=10.5):

temp=11

segment.append(temp)

temp=12

temp=8

if(df['tins'][i]<=5.5):

temp=9

temp=10

if(df['pdpe'][i]<=46.5):

if(df['MOBPLUS_M'][i]<=0.5):

temp=13

temp=14

temp=4

业务应用

第一类:

第二类:

这一类人群,是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

除此之外,我们还可以做什么呢?

了解客户需求

开发新的保险产品

数据分析咨询请扫描二维码

在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据...

金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市...

在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举...

随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有...

在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理...

Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员...

在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重...

数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多...

在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现...

随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复...

数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力...

数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中...

CDA数据分析师认证:CDA认证分为三个等级:LevelⅠ、LevelⅡ和LevelⅢ,每个等级的报考条件如下:Le...

自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就...

数据挖掘与分析在金融行业的使用在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的...

学习数据挖掘需要掌握哪些技能数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有...

统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计...

THE END
1.国内财险公司的“调整”与“转型”“转型”和“调整”是今年整个国内保险行业最重要的两个关键词。在当前国内资本市场发展存在不确定性的情况下,保险机构的投资更趋冷静和理性,投资理财型保险业务发展热情下降,这些都为国内保险公司的业务结构调整提供了良好时机。1、上半年行业数据好于预期受国外金融海啸的负面影响,在今年年初时,多数人对今年的国内财产...https://m.vobao.com/news/632769154740.shtml
1.请问大家做保险研究,数据都是从哪里找的?回复有金币!鄙人现在在外资机构从事保险研究,但是经常碰到找不到保险数据的问题。 现在我自己使用的网站就是保监会,保险协会,(保监会保险行业数据,保险行业协会保险行业和公司的数据),再有就是四大会计公司(EY, Deloitte, PWC, KPMG会不定期发布报告书)和瑞士再保险(不定期的报告书)。 https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_3526926_1.html
2.如何找到行业研究数据?简单又高效的方法!在进行行业研究时,数据...获取途径: Wind Choice 招股书:招股书有更加细致的经营数据,同时也能了解到公司主营业务的发展变化等 行业数据 行业数据横向、纵向介绍细分行业状况,主要数据包括:公司市场份额及细分行业竞争状况、产业链情况、上下游供需情况、终端产品需求及其他的行业指标。 获取途径: 招股书:第六节业务与技术,非常详细!包括...https://www.yoojia.com/article/4159580573186518902.html
3.医疗数据合规观察:“保险+”触碰敏感个人信息如何探索合规之路...21世纪经济报道长期关注数据合规议题,伴随着法律法规实施,我们希望能从垂直领域了解行业动态,故推出“守护医疗数据安全”系列报道,详解宏观政策、产业发展,探讨不同场景、细分行业的合规难点,以期提升整个行业的数据合规水位线。 随着保险数字化转型进入关键期,各大险企积极参与“保险+”的模式创新,人工智能、大数据的...https://m.caijing.com.cn/article/256606
4.三明市公安局三元分局资产清查条形码管理服务项目附件a2单位负责人授权书 1、企业(银行、保险、石油石化、电力、电信等行业除外)、事业单位和社会团体法人的“单位负责人”指法定代表人,即与实际提交的“营业执照等证明文件”载明的一致。2、银行、保险、石油石化、电力、电信等行业:以法人身份参加投标的,“单位负责人”指法定代表人,即与实际提交的“营业执照等证明文...http://zfcg.cz.sm.gov.cn/upload/document/20220210/daff0fa29c024577a639a0d6c0043c10.html
5.保险行业数据分析保险数据分析数据分析完整流程:保险行业数据分析 一、业务背景 1.业务环境 宏观 中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距。 业界 保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新 时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展。 https://blog.csdn.net/qq_36816848/article/details/113591095
6.山东商务职业学院2024级新生入学须知(七)医疗保险:根据《烟台市居民基本医疗保险实施办法》(烟政办发【2022】27号)及《关于公布2025年度居民基本医疗保险个人缴费标准的通知》(烟医保字【2024】24号)文件要求驻本市行政区域内的各类全日制普通高校个人缴费标准为每人每年170元。如有特殊情况不能参保的由学生本人写出情况说明、家长签字后交学校后勤服务处...https://zs.sdbi.edu.cn/info/1026/3551.htm
7.怎么查询保险行业数据分析报告帆软数字化转型知识库查询保险行业数据分析报告可以通过以下途径:行业协会和机构、市场调研公司、政府部门、行业期刊和杂志、在线数据库和工具。行业协会和机构通常会发布年度报告和市场分析,例如中国保险行业协会发布的《中国保险市场报告》。这些报告通常包含行业整体发展情况、市场规模、产品结构等详细数据。此外,市场调研公司如艾瑞咨询、德勤、...https://www.fanruan.com/blog/article/361660/
8.云南省职业院校技能大赛互联网+国际贸易综合技能赛项竞赛规本赛项以服务“构建国内国际双循环相互促进的新发展格局”为目标,以助力“一带一路”建设为核心,以国际贸易最新业态发展为驱动,瞄准世界高水平的国际贸易行业技能,在检验教学成果的同时,搭建专业、课程、培养机制改革平台,促进专业建设、教学改革的深入进行,切实提高教学质量和人才培养水平。 https://jxfw.ynavc.com/mobile/news/show/10605
9.聚焦保险行业客户经营现状,概述神策数据CJO解决方案极客公园在高度竞争的保险市场中, 提供卓越的客户体验已经成为企业成功的关键,CJO 正引领着保险行业向更加个性化和无缝链接的客户互动模式转型。本文聚焦保险行业客户经营现状, 为大家介绍神策数据保险行业 CJO 解决方案, 希望能够为保险企业的数字化经营提供新的思路。 https://www.geekpark.net/news/338414
10.神策数据:五个关键环节,构建保险行业存量线索经营的完整链路在保险行业,数字化客户经营已成为企业转型的关键步骤,尤其是在面对传统业务模式的局限性和新兴市场挑战时,不少保险公司可能会遇到疑惑和阻碍,诸如线上平台功能单一、互联网业务比重低、用户活跃度不高等问题。 然而,正是这些问题背后,蕴藏着数字化客户经营的巨大潜力。 https://www.ithome.com/0/782/690.htm
11.保险公司测评系列——瑞泰人寿二、最新数据: 6.总资产:68.49 亿元 7.核心偿付能力充足率:110.97 8.综合偿付能力充足率:139.60 9.风险评级:B级(2021四季度) ?10.2022年一季度保费收入:4.15亿,排名68(74家保险公司) 三、行业数据与排名 11)2022一季度综合退保率:2.14%,排名12(70家寿险公司排名) ...https://weibo.com/ttarticle/p/show?id=2309404777484205031721
12.中国知网知识资源数据行业创新中心平台正式上线试运行啦,欢迎各企业机构注册试用并提出宝贵意见和建议! 10-122024 知网邀您共赴第84届中国教育装备展示会! 2024年10月25-27日,知网在昆明滇池国际会展中心4号馆4H025公开展览! 09-182024 “2024科研诚信与学术规范公益大讲堂-开学第一课”重磅开讲! http://cnki.net/
13.有志从事证券保险行业的你看准啦!广东金融高新区这些企业虚位以待...节后有找工作的意愿? 广东金融高新区海量名企职位等着你! 今天起 金融君将一连几天 根据招聘企业的业务属性 发布最新园区招聘信息 让大家揾工有的放矢! 今天是“证券、保险篇”招聘汇总 招聘企业一览 1、广发证券佛山分公司 2、兴业证券股份有限公司佛山分公司 ...https://www.thepaper.cn/newsDetail_forward_6322814
14.2020年代:数字保险生态崛起界面新闻·JMedia构建生态,不仅需要传统意义上的保险主体参与,如保险公司、经代公司、互联网保险平台等,也需要非保险行业的场景参与者,包括场景方、相关场景下的服务提供方等。 例如,中国平安的医疗健康生态需要平安好医生这一医疗服务提供方,也需要平安医保科技这一数据和支付解决方案提供方。 https://www.jiemian.com/article/3833996.html