项目案例之决策树在保险行业的应用

中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距

保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展发展环境。

互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

中国保险市场持续高速增长。根据银保监会数据,2011~2018年,全国保费收入从1.4万亿增长至3.8万亿,年复合增长率17.2%。2014年,中国保费收入突破2万亿,成为全球仅次于美国、日本的第三大新兴保险市场市场;2016年,中国整体保费收入突破3万亿,超过日本,成为全球第二大保险市场;2019年,中国保费收入有望突破4万亿。

发展现状

受保险行业结构转型时期影响,互联网保险整体发展受阻,2018年行业保费收入为1889亿元,较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛,2018年同比增长108%,主要由短期医疗险驱动

供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加发展现状强自营渠道建设及科技输出是未来的破局方法,渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。

互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升竟合格局:随着入局企业増增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态发展趋势

发展趋势

随着入局企业增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态。发展趋势

当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

衡量指标

业务目标

数据分析

分析流程框架

导入数据

df=pd.read_csv(r'data.csv',sep=',',header=0)

df.shape

(5000000,50)

数据探索性分析

描述性统计

在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。

type_0=df.dtypes

type_0.to_excel('original.xlsx')

#将KBM_INDV_ID的int64转化为object

df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')

describe=df.describe().T

type(describe)

describe.to_excel('../output/describe_var.xlsx')

#引入画图模块

plt.subplot(1,2,1)

sns.countplot(x='N2NCY',hue='resp_flag',data=df);#设置x,y以及颜色控制的变量,以及画图的数据

plt.xlabel('N2NCY');

plt.ylabel('Frequency');

#了解因变量的分布

Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()

print(Resp_count)

str(round(Resp_count[1]/len(df)*100,2))+str('%')#查看购买了

从这个图片我们可以看到,买了保险的用户和未买保险的人所处县的情况。

NextStep:

#检查是否有缺失的行

df.shape[0]-df.dropna().shape[0]###

#检查是否有缺失的列

len(df.columns)-df.dropna(axis=1).shape[1]#626

NA=df.isnull().sum()

print('orginalNA=',NA)

NA=NA.reset_index()

NA.columns=['Var','NA_count']

NA=NA[NA.NA_count>0].reset_index(drop=True)

print(NA)

NA.to_excel('../output/var_incl_na.xls',index=False)

####处理缺失值

var_char_na=[]

#我们对连续型数据进行中位数填补,然后对离散型数据进行特殊值填补,我们这里利用的是N

foriinrange(len(NA)):

ifNA['NA_count'][i]/len(df)>0.75orlen(df[NA['Var'][i]].unique())<=2:

deldf[NA['Var'][i]]

elifdf[NA['Var'][i]].dtypes!="object":

#填充缺失值-中位数

for_na_value=df[NA['Var'][i]].quantile(0.5)

#for_na_value

df[NA['Var'][i]]=df[NA['Var'][i]].fillna(for_na_value)

elifdf[NA['Var'][i]].dtypes=="object"andlen(df[NA['Var'][i]].unique())<=3:

df[NA['Var'][i]]=df[NA['Var'][i]].fillna('N',inplace=True)

else:

var_char_na.append(NA['Var'][i])

var_char_na

处理分类型变量

#DropVariablesthatarenotnecessary

drop_list=['STATE_NAME','KBM_INDV_ID']

forvarindrop_list:

deldf[var]

##检查数据集中数值型变量和字符型变量

var_num=[]

var_char_uniq2=[]

var_char_mul=[]

forvarinlist(df):

ifdf[var].dtypes=="object"andlen(df[var].unique())>2:

var_char_mul.append(var)

elifdf[var].dtypes!="object":

var_num.append(var)

var_char_uniq2.append(var)

##处理多值型字符变量

forvarinvar_char_mul:

temp=pd.get_dummies(df[var],prefix=var,prefix_sep='_')

print(temp)

forvar2inlist(temp):

ifvar2in'_nan':

deltemp[var2]

df=pd.concat([df,temp],axis=1)

deltemp

len(df.columns)##88

df.head(5)

df.to_excel('../output/data.xls',index=False)

##处理二值型的字符变量

fromsklearn.preprocessingimportLabelEncoder

definteger_encode(var):

values=np.array(df[var])

label_encoder=LabelEncoder()

df[var]=label_encoder.fit_transform(values)

forvarinvar_char_uniq2:

iflen(df[var].unique())<2:

else:integer_encode(var)

建模

#引用sklearn模块

fromsklearnimporttree

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.metricsimportclassification_report

#fromsklearnimportcross_validation,metrics

fromsklearnimportmetrics

fromsklearn.model_selectionimportcross_val_score

#fromsklearn.grid_searchimportGridSearchCV

fromsklearn.model_selectionimportGridSearchCV

rcParams['figure.figsize']=12,4

##在模型样本内将数据集7:3分,70%用来建模,30%用来测试

features=list(df.columns[1:])

X=df[features]

y=df['resp_flag']

#将数据集7:3分,70%用来建模,30%用来测试

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=.3)

clf=tree.DecisionTreeClassifier()

param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}

gsearch=GridSearchCV(estimator=clf,

param_grid=param_test,scoring='roc_auc',n_jobs=1,iid=False,cv=5)

gsearch.fit(X_train,y_train)

#gsearch.grid_scores_,gsearch.best_params_,gsearch.best_score_

gsearch.cv_results_,gsearch.best_params_,gsearch.best_score_

验证输出结果

clf=tree.DecisionTreeClassifier(

class_weight=None,

criterion='gini',

max_features=None,

max_leaf_nodes=8,

min_samples_leaf=2000,

min_samples_split=5000,

min_weight_fraction_leaf=0.0,

splitter='best')

results=modelfit(clf,X_train,y_train,X_test,y_test)

importos

importpydotplus

fromIPython.displayimportImage

fromsklearn.externals.siximportStringIO

#os.environ["PATH"]+=os.pathsep+'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'

dot_data=StringIO()

out_file=dot_data)

输出规则

if(df['meda'][i]<=56.5):

if(df['age'][i]<=70.5):

if(df['c210hva'][i]<=312.5):

if(df['ilor'][i]<=10.5):

temp=11

segment.append(temp)

temp=12

temp=8

if(df['tins'][i]<=5.5):

temp=9

temp=10

if(df['pdpe'][i]<=46.5):

if(df['MOBPLUS_M'][i]<=0.5):

temp=13

temp=14

temp=4

业务应用

第一类:

第二类:

这一类人群,是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

除此之外,我们还可以做什么呢?

了解客户需求

开发新的保险产品

数据分析咨询请扫描二维码

《Python数据分析极简入门》第2节7Pandas分组聚合分组聚合(groupby)顾名思义就是分2步:先分组:根据某列数据的值进行...

数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容:数学和统计学...

数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力:统计...

数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需...

《Python数据分析极简入门》第2节6Pandas合并连接在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc...

《Python数据分析极简入门》第2节5Pandas数学计算importpandasaspdd=np.array([[81,&n...

数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面:基础知识:数据分析的基本概念...

数据分析适合在多个单位工作,包括但不限于以下领域:金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经...

数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面:数据收集与整理:数据分析师...

数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能:...

数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安...

数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能:...

数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要...

需求持续增长-未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。-预测到2025年,中国将需要高达220万的数据人...

《Python数据分析极简入门》第2节4Pandas条件查询在pandas中,可以使用条件筛选来选择满足特定条件的数据importpanda...

数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一...

数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能:统计学基础:数据分析师需要...

数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。入门难度:数据分析入门相对...

THE END
1....关于保险业务中保费收入数据的深度分析与解读投资方法强调了对公司基本面的深入研究。https://www.55188.com/thread-27556621-1-1.html
2.2022一、企业数量结构分析 二、规模以上企业数量 三、行业从业人员数量 第二节 2020-2022年中国财产保险行业财务指标总体分析 一、行业盈利能力分析 1、我国财产保险行业销售利润率 2、我国财产保险行业成本费用售利润率 3、我国财产保险行业亏损面 二、行业偿债能力分析 1、我国财产保险行业资产负债比率 三、行业营运能力...https://m.chinairn.com/report/20220817/094458807.html
3.中国居民保险行业深度分析及“十五五”发展规划指导报告报告导读: 宇博智业通过对居民保险行业长期跟踪监测,分析居民保险行业需求、供给、经营特性、获取能力、产业链和价值链等多方面的内容,整合行业、市场、企业、用户等多层面数据和信息资源,为客户提供深度的居民保险行业研究报告,以专业的研究方法帮助客户深入的了解居民保险行业,发现投资价值和投资机会,规避经营风险,提高管...https://www.chinabgao.com/report/print15036724.html
4.202420242030年中国财产保险行业营销发展分析及发展战略建议报告目录 一中国财产保险行业现状分析 3 1. 行业规模及发展趋势 3 财产险市场总收入增长情况 3 各类险种市场份额变化 5 关键数据指标解读 7 2. 公司经营状况及竞争格局https://www.renrendoc.com/paper/360718310.html
5.2019级李文斌:上市人身保险公司估值分析因为内含价值评估的本质就是可自由分配给股东的现金流现值,自然成为专业投资人评估保险公司股价的首选。通常资本市场使用P/EV的倍数指标来衡量一家保险公司的股价,例如在国际上成熟的保险市场,许多公司的P/EV倍数通常都在1倍左右。我国作为新兴市场,考虑到保险行业的成长性,国内A股上市的保险公司在的估值方面享有一定的...http://fmba.pbcsf.tsinghua.edu.cn/info/1027/1250.htm
6.2024年深圳保险行业分析报告及未来五到十年行业发展趋势报告.docx...二、深圳保险行业财务状况分析 6 (一)、深圳保险行业近三年财务数据及指标分析 6 (二)、现金流对深圳保险行业的影响 8 三、深圳保险行业企业战略目标 8 四、2024-2029年深圳保险行业企业市场突破具体策略 9 (一)、密切关注竞争对手的策略,提高深圳保险行业产品在行业内的竞争力 9 (二)、使用深圳保险行业市场渗透...https://m.book118.com/html/2023/1223/7004163043006022.shtm
7.最全的保险公司分析指标体系,这份白皮书值得你收藏!随着客户需求改变,科技不断创新,中国的保险行业也在加速改变,数据化转型是保险公司的必由之路。只有借助大数据、人工智能、云计算等这些新科技,全面推动数据化转型,实现管理和经营先知、先觉和先行,提升客户体验,才能…https://m.sohu.com/a/463723311_730790
1.保险行业分析指标体系成本费用类指标 综合赔付率 综合费用率 综合成本率 保费费用率 手续费及佣金比率 分保费用比率 保险行业分析指标体系 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 退保率 未决赔款准备金与赔款...https://doc.mbalib.com/view/f52a99c0a37ea3829fe7939f55a87b83.html?topic_id=302411
2.2023年中国汽车保险行业市场规模保单数量及竞争格局分析「图」第二节 汽车保险行业特征分析 一、产业链分析 二、行业在国民经济中的地位 三、行业生命周期分析 第三节 汽车保险行业经营模式分析 第四节 最近3-5年中国汽车保险行业经济指标分析 一、赢利性 二、成长速度 三、附加值的提升空间 四、进入壁垒/退出机制 ...https://www.dongchedi.com/article/7239533642438279741
3.保险公司统计分析指标体系规范pdf【数据指标体系】-保险行业分析指标体系.zip 5星 · 资源好评率100% 在数据分析领域,尤其是在保险行业中,建立一套完整且有效的数据指标体系是至关重要的。这不仅可以帮助保险公司更好地理解业务状况,还能支持决策制定、风险评估和市场趋势预测。"【数据指标体系】-保险行业分析指标体系.zip"这个压缩包文件很可能包含...https://wenku.csdn.net/answer/7icgz8rzvg
4.保险公司经营绩效分析(精选十篇)但是应当看到, 农业上市公司在经营绩效上同其他行业很大的差距, 因此, 本文将基于2003-2007年我国农业上市公司的相关财务数据, 对其经营绩效进行综合分析评价, 提出一些建议, 以期进一步促进我国新农村建设。 二、农业上市公司经营绩效现状 (一) 盈利能力 资料来源:作者整理...https://www.360wenmi.com/f/cnkey3456nrw.html
5.2018财险业经营现状分析专题系列四:汇友互助安心财险前海联合...有关财险行业2018年“赔付支出”指标《财联社·保险频道》已在《2018财险业经营现状分析专题系列三:平均赔付率47.23% 互联网公司“烧费用”明显》一文中详细阐述,本期,将针对“手续费及佣金支出”“业务与管理费”两项指标进行分析。 行业“业务及管理费”平均增幅19.04% ...https://m.cls.cn/detail/350594
6.财务分析指标需要与自己比,与同行比,更要与行业头部企业比对于企业的经营方式者来说,财务管理报表是充分反映企业财务管理情况和经营方式丰硕成果的关键数据资料,财务管理报表能全面性阐明企业一定末期经营方式情况及业绩预期,怎样能从财务管理报表上榨取管用的重大决策关键信息,则须要对财务管理报表中充分反映的大批统计数据展开预测,使这些统计数据转化成有效率的关键信息,协助关键信...https://www.jiandaoyun.com/fe/qwetno/
7.保险公司财务分析报告范文怎么写?本报告旨在对保险公司的财务状况进行深入分析,通过收集和整理公司zui新的财务报表,结合行业发展趋势,揭示公司目前的经营状况及未来可能面临的挑战。本报告将提供一份全面的财务分析,以期为投资者、债权人和其他利益相关者提供有价值的参考信息。 二、财务报表分析 ...http://shanghai01050028.11467.com/news/6134323.asp
8.保险行业产权比率标准1. 新能源汽车行业的产权比率行业平均值为约60%!。 (MISSING) 2. 这是因为新能源汽车行业的资本投入和技术研发相对较高,导致企业自有资金占比较高。 3. 值得注意的是,不同企业的产权比率可能存在较大差异,因此需要具体分析具体情况。 企业财务分析中重要财务指标的计算与分析 ...https://www.fobmy.com/news/show-1597780.html
9.有志从事证券保险行业的你看准啦!广东金融高新区这些企业虚位以待...2、工作经验:二年以上保险中介业务管理或相关岗位工作经验 3、专业技能:具较强的政策敏感性、数据统计处理和 KPI 指标分析能力,良好的中文口头及书面表达能力,熟练使用办公软件 4、个性特征:责任心强,沟通协调能力强,亲和力好。 5、其他:无 培训讲师岗 https://www.thepaper.cn/newsDetail_forward_6322814
10.《中国保险行业数字化转型指数报告》:169家保险机构的数字化对标...从转型的细分指标体系上看,数字化合规与安全、前台、中台、后台业务数字化、基础设施数字化等五大维度指数全面上升,其中合规与安全最受重视。 图2:保险数字化转型的五个维度对比 来源:《中国保险行业数字化转型指数报告(2018-2021)》 从类别上看,科技公司的数字化转型水平最高;其次是实力雄厚的保险集团公司;保险中...https://stock.hexun.com/2024-01-30/211787783.html
11.保险公司经营分析8篇(全文)九、基于财务分析,对地产行业经济形势的判断 通过对所开发的房地产的房型毛利分析、各项成本分析,结合本地房地产市场的分析,将上述财务分析提供给公司领导,为领导决策提供财务支持。 十、**地产主要财务指标在地产板块及所有上市公司中的位置 公司2009总资产、收入、利润、净资产报酬率等财务指标与地产板块的比较,有哪...https://www.99xueshu.com/w/filew6tbz0cw.html