项目案例之决策树在保险行业的应用

中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距

保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展发展环境。

互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

中国保险市场持续高速增长。根据银保监会数据,2011~2018年,全国保费收入从1.4万亿增长至3.8万亿,年复合增长率17.2%。2014年,中国保费收入突破2万亿,成为全球仅次于美国、日本的第三大新兴保险市场市场;2016年,中国整体保费收入突破3万亿,超过日本,成为全球第二大保险市场;2019年,中国保费收入有望突破4万亿。

发展现状

受保险行业结构转型时期影响,互联网保险整体发展受阻,2018年行业保费收入为1889亿元,较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛,2018年同比增长108%,主要由短期医疗险驱动

供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加发展现状强自营渠道建设及科技输出是未来的破局方法,渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。

互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升竟合格局:随着入局企业増增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态发展趋势

发展趋势

随着入局企业增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态。发展趋势

当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

衡量指标

业务目标

数据分析

分析流程框架

导入数据

df=pd.read_csv(r'data.csv',sep=',',header=0)

df.shape

(5000000,50)

数据探索性分析

描述性统计

在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。

type_0=df.dtypes

type_0.to_excel('original.xlsx')

#将KBM_INDV_ID的int64转化为object

df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')

describe=df.describe().T

type(describe)

describe.to_excel('../output/describe_var.xlsx')

#引入画图模块

plt.subplot(1,2,1)

sns.countplot(x='N2NCY',hue='resp_flag',data=df);#设置x,y以及颜色控制的变量,以及画图的数据

plt.xlabel('N2NCY');

plt.ylabel('Frequency');

#了解因变量的分布

Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()

print(Resp_count)

str(round(Resp_count[1]/len(df)*100,2))+str('%')#查看购买了

从这个图片我们可以看到,买了保险的用户和未买保险的人所处县的情况。

NextStep:

#检查是否有缺失的行

df.shape[0]-df.dropna().shape[0]###

#检查是否有缺失的列

len(df.columns)-df.dropna(axis=1).shape[1]#626

NA=df.isnull().sum()

print('orginalNA=',NA)

NA=NA.reset_index()

NA.columns=['Var','NA_count']

NA=NA[NA.NA_count>0].reset_index(drop=True)

print(NA)

NA.to_excel('../output/var_incl_na.xls',index=False)

####处理缺失值

var_char_na=[]

#我们对连续型数据进行中位数填补,然后对离散型数据进行特殊值填补,我们这里利用的是N

foriinrange(len(NA)):

ifNA['NA_count'][i]/len(df)>0.75orlen(df[NA['Var'][i]].unique())<=2:

deldf[NA['Var'][i]]

elifdf[NA['Var'][i]].dtypes!="object":

#填充缺失值-中位数

for_na_value=df[NA['Var'][i]].quantile(0.5)

#for_na_value

df[NA['Var'][i]]=df[NA['Var'][i]].fillna(for_na_value)

elifdf[NA['Var'][i]].dtypes=="object"andlen(df[NA['Var'][i]].unique())<=3:

df[NA['Var'][i]]=df[NA['Var'][i]].fillna('N',inplace=True)

else:

var_char_na.append(NA['Var'][i])

var_char_na

处理分类型变量

#DropVariablesthatarenotnecessary

drop_list=['STATE_NAME','KBM_INDV_ID']

forvarindrop_list:

deldf[var]

##检查数据集中数值型变量和字符型变量

var_num=[]

var_char_uniq2=[]

var_char_mul=[]

forvarinlist(df):

ifdf[var].dtypes=="object"andlen(df[var].unique())>2:

var_char_mul.append(var)

elifdf[var].dtypes!="object":

var_num.append(var)

var_char_uniq2.append(var)

##处理多值型字符变量

forvarinvar_char_mul:

temp=pd.get_dummies(df[var],prefix=var,prefix_sep='_')

print(temp)

forvar2inlist(temp):

ifvar2in'_nan':

deltemp[var2]

df=pd.concat([df,temp],axis=1)

deltemp

len(df.columns)##88

df.head(5)

df.to_excel('../output/data.xls',index=False)

##处理二值型的字符变量

fromsklearn.preprocessingimportLabelEncoder

definteger_encode(var):

values=np.array(df[var])

label_encoder=LabelEncoder()

df[var]=label_encoder.fit_transform(values)

forvarinvar_char_uniq2:

iflen(df[var].unique())<2:

else:integer_encode(var)

建模

#引用sklearn模块

fromsklearnimporttree

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.metricsimportclassification_report

#fromsklearnimportcross_validation,metrics

fromsklearnimportmetrics

fromsklearn.model_selectionimportcross_val_score

#fromsklearn.grid_searchimportGridSearchCV

fromsklearn.model_selectionimportGridSearchCV

rcParams['figure.figsize']=12,4

##在模型样本内将数据集7:3分,70%用来建模,30%用来测试

features=list(df.columns[1:])

X=df[features]

y=df['resp_flag']

#将数据集7:3分,70%用来建模,30%用来测试

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=.3)

clf=tree.DecisionTreeClassifier()

param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}

gsearch=GridSearchCV(estimator=clf,

param_grid=param_test,scoring='roc_auc',n_jobs=1,iid=False,cv=5)

gsearch.fit(X_train,y_train)

#gsearch.grid_scores_,gsearch.best_params_,gsearch.best_score_

gsearch.cv_results_,gsearch.best_params_,gsearch.best_score_

验证输出结果

clf=tree.DecisionTreeClassifier(

class_weight=None,

criterion='gini',

max_features=None,

max_leaf_nodes=8,

min_samples_leaf=2000,

min_samples_split=5000,

min_weight_fraction_leaf=0.0,

splitter='best')

results=modelfit(clf,X_train,y_train,X_test,y_test)

importos

importpydotplus

fromIPython.displayimportImage

fromsklearn.externals.siximportStringIO

#os.environ["PATH"]+=os.pathsep+'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'

dot_data=StringIO()

out_file=dot_data)

输出规则

if(df['meda'][i]<=56.5):

if(df['age'][i]<=70.5):

if(df['c210hva'][i]<=312.5):

if(df['ilor'][i]<=10.5):

temp=11

segment.append(temp)

temp=12

temp=8

if(df['tins'][i]<=5.5):

temp=9

temp=10

if(df['pdpe'][i]<=46.5):

if(df['MOBPLUS_M'][i]<=0.5):

temp=13

temp=14

temp=4

业务应用

第一类:

第二类:

这一类人群,是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

除此之外,我们还可以做什么呢?

了解客户需求

开发新的保险产品

数据分析咨询请扫描二维码

《Python数据分析极简入门》第2节8-1Pandas数据重塑-数据变形数据重塑(Reshaping)数据重塑,顾名思义就是给数据做各种变...

统计学基础-理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。数...

数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技...

数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数...

数据分析师:洞察力量的引擎数据分析师的兴起数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。...

数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将...

“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、...

一、引言背景介绍随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业...

《Python数据分析极简入门》第2节7Pandas分组聚合分组聚合(groupby)顾名思义就是分2步:先分组:根据某列数据的值进行...

数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容:数学和统计学...

数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力:统计...

数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需...

《Python数据分析极简入门》第2节6Pandas合并连接在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc...

《Python数据分析极简入门》第2节5Pandas数学计算importpandasaspdd=np.array([[81,&n...

数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面:基础知识:数据分析的基本概念...

数据分析适合在多个单位工作,包括但不限于以下领域:金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经...

数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面:数据收集与整理:数据分析师...

数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能:...

THE END
1.医疗保险博弈分析.pptx演讲人:日期:医疗保险博弈分析延时符Contents目录医疗保险博弈概述政府与保险公司博弈保险公司与医疗机构博弈消费者与保险公司博弈医疗保险博弈案例分析医疗保险博弈优化建议延时符01医疗保险博弈概述博弈论参与者策略收益博弈论基本概念01020304研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。在博弈中独立...https://www.renrendoc.com/paper/362740547.html
2.python机器学习(五)保险保费的多元线性回归模型案例保险公司对个人投保时或根据历史数据生成的模型来计算个人保费,那么本次我们就以这个模型的求解过程为例来实践下多元线性回归。 2 数据与简单分析 数据集下载数据信息如下图所示: 我们已经获取到保险公司部分数据,文件名为insurance.csv,文件内容如下。我们可以看出数据中共有六个维度:age(年龄),sex(性别),bmi(肥胖...https://segmentfault.com/a/1190000018897900
3.数学毕业论文(精选13篇)但教育理论同时也指出“授人以鱼不如授人以渔”,对数学探究和建模的研究思想的把握将给予学生终生的财富,而非某个特殊的案例和习题。这就要求课程设计的过程中必须提炼出一些具有广泛应用基础的一般性模型和理性分析思路,只有在这样的数学训练中学生才能有效掌握数学思想、方法,深入领会数学的理性精神,充分认识数学的...http://m.biyelunwen.yjbys.com/fanwen/shuxue/655340.html
4.2018级老年服务与管理专业人才培养方案九、职业能力和职业资格标准分析 十、课程结构框架 按照高素质技术技能人才的培养目标,构建公共基础课程(公共必修课、公共选修课)、专业课程(专业基础课、专业技能课、专业选修课)的课程体系。通过校内理论授课和实训、校外实践、企业实习,促进学生综合职业能力的形成。 https://jwc.wfhlxy.com/info/1023/1358.htm
5.新时代南审精神钻研教学不断创新,你的老师获奖啦...同时,安排学生进行充分适当的案例分析与反思讨论,开展翻转课堂的“头脑风暴式”案例分析,更加充分透彻地分析企业内部控制与风险管理审计问题,为学生未来更好地进入相关工作岗位提供了可以借鉴的经验与学习经历。 BIM(Building Information Modeling,建筑信息模型):付倩老师建筑信息模型是当今建筑行业的先进技术之一,是建筑行业...https://www.mbachina.com/html/%E5%8D%97%E4%BA%AC%E5%AE%A1%E8%AE%A1%E5%A4%A7%E5%AD%A6/202201/409379.html
6.保险典型案例分析启示,保险典型案例分析启示:从案例中学习经验与...本文将对几个保险领域的典型案例进行深入分析,并探讨这些案例给我们带来的启示。通过学习和分析这些案例,我们可以了解保险行业的实际操作和风险控制方法,? ,理想股票技术论坛https://www.55188.com/topics-7014110.html
1.数学建模模型案例解析汽车保险的优化模型.zip汽车保险是一种为车辆提供保障的合同,当车辆遭受意外损失或损坏时,保险公司将按照合同约定进行赔付。因此,保险公司的目标是在保证服务质量的同时,控制赔付成本,以实现利润最大化。 案例中的优化模型可能包括以下几个关键环节: 1. **风险评估**:运用概率论和统计学,通过历史数据来分析车辆出险的概率。这涉及到事故率...https://download.csdn.net/download/wenyusuran/85337728
2.保险学案例分析整理第一篇:保险学案例分析整理 保险销售误导案例整理 1、 分红产品风险案例: 案情:客户汪某曾同一天购买了公司的五年期千里马10万元及10年期千里马70万元,销售人员宣传产品收益高于同期存款利率的同时,宣称十年期的千里马第五年时退保的收益比五年期千里马的满期收益高,客户发现十年期产品的收益并没有五年期产品满期的收...https://www.360wenmi.com/f/atb1qdl04z6r.html
3.2018年硕士研究生入学考试考试大纲二、电阻电路分析 1.等效的概念,电源的串、并联,串、并联电阻电路的计算,星形联结与三角形联结电阻电路的等效变换,实际电源的两种模型及其等效互换。 2.支路法、回路(网孔)电流法、结点电压法,回路电流方程的矩阵形式,结点电压方程的矩阵形式。 3.叠加定理、戴维南定理与诺顿定理,替代定理,最大功率传输定理,特勒根定...https://yz.shmtu.edu.cn/2021/0426/c8936a133164/page.htm
4.保险经济学实证分析经典案例分析解读,保险经济学经典论文【请点击这里访问】 保险经济学实证分析经典案例分析解读,保险经典论文 1.保险经济学研究述评pdf 2.保险市场逆向选择问题研究新进展,pdf 3.道德风险与基于委托代理理论的最优保险契约模型,pdf 4.契约模型在保险市场中的应用.caihttps://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_10268962_1.html
5.OMManagementScience2021年8月论文导读运筹OR帷幄我们利用最近发展起来的对弱公式中有限多状态的均值场博弈的概率分析,建立了一个委托人/代理人合同理论模型,其中委托人面对大量以均值场方式交互的代理人。我们将问题简化为McKean-Vlasov类型的动力学的最优控制,并且我们针对一类具有凹奖励的模型明确地解决了这个问题。本文最后用一个数值例子证明了将结果应用于控制流行...https://www.shangyexinzhi.com/article/4445974.html
6.中国保险行业现状调研分析及发展趋势预测报告(2024年版)名称:中国保险行业现状调研分析及发展趋势预测报告(2024年版) 编号:1887835 ←电话咨询时,请说明该编号。 市场价:电子版9500元 纸质+电子版9800元 优惠价:电子版8500元 纸质+电子版8800元 可提供增值税专用发票 热线:400 612 8668、010-6618 1099、66182099、66183099 邮箱:KF@Cir.cn 下载《订购协议》 提示:如...https://www.cir.cn/R_JinRongTouZi/35/BaoXianFaZhanQuShiYuCeFenXi.html
7.《保险学》案例《保险学》案例第三章保险合同一、案例分析 案例1:未缴足保险费怎么赔? 某地个体运输户王某,于1998年12月份将一辆16座面包车向当地保险公司投保车辆损失险和第三者责任险。保险金额为12万元,应付保费2850元。当保险单填妥向王收费时,王声称钱未带够,因急于出车,要求先将保险单给他,下午再将其余的钱交来,接着...https://doc.mbalib.com/view/ebf56fdcae66ca8921c017cd38bced7b.html
8.数学论文范文(通用14篇)四、数学与应用数学案例分析 比如,以保险精算师为例,我们需要有扎实的数学知识,同时还需要熟练地运用各种各样的现代数学方法,对未来变化作出一个科学的预判,同时还需要有坚实的经济理论方面的基础,对于法律、税务制度和财务会计进行深入的'分析和了解,尤其是对风险要有非常敏锐的洞察力和处理风险的能力,由于普通的精算...https://www.fwsir.com/jy/html/jy_20210317182158_868765.html
9.银行案例分析报告(精选19篇)银行的安全性和可靠性对人们选择使用的决策起着重要作用。接下来是一些关于银行风险管理的案例分析,希望对您有所启发。 保险案例分析报告 篇一 某女职工c某2月与中外合资的酒店签定为期两年劳动合同。10月发现怀孕,4个月后,酒店以劳动合同到期为由与c某终止劳动合同。c某不服,一是认为自己是按照国家计划生育政策生...https://www.77cxw.com/fl/1015419.html