1厦门大学信息学院(国家示范性软件学院),福建厦门
2厦门大学数学科学学院,福建厦门
摘要
关键词
机器学习,数据探索,LASSO回归,评分卡,健康指数
HealthScoreModelBasedonBigDataofPhysicalExamination
ChangkunXie1,MingqiZhao2,ShimingLin1*
1SchoolofInformaticsXiamenUniversity(NationalDemonstrativeSoftwareSchool),XiamenFujian
2SchoolofMathematicalSciencesXiamenUniversity,XiamenFujian
Received:Dec.1st,2020;accepted:Dec.31st,2020;published:Jan.12th,2021
ABSTRACT
Inrecentyears,withtherapiddevelopmentofhealthcarebigdataplatform,moreandmorephysicalexaminationdataareintegratedintothebigdataplatform.Anewchallengeishowtoimprovethequalityofmedicalservicesbyusingmassivemedicaldata.Inthispaper,weusemachinelearningalgorithmtovisuallyanalyze3,529,829physicalexaminationdataof45,374physicalexaminationusers.Onthebasisofpersonalcreditriskscoringmodel,thepredictionmodelisimprovedfromgradientintegrateddecisiontreetolassoregressionmodel,whichincreasestheinterpretabilityofscorecard.Atthesametime,combinedwiththeapplicationscenariosandinputdataofphysicalexamination,weestablishedthehealthscoremodel.Thehealthindexscorebasicallyobeysnormaldistribution,whichisconsistentwiththepriorhypothesisofthelinearregressionmodelItcanintegratevariousphysicalexaminationindicators,objectivelydescribethehealthstatusofusers,reducethecommunicationcostbetweenusersanddoctors,andurgeuserstopaymoreattentiontotheoverallhealthstatus.
Keywords:MachineLearning,DataExploration,LassoRegression,ScoreCard,HealthScore
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
2.数据和分析方法
Table1.Resultsofphysicalexamination
Table2.Itemsofphysicalexamination
2.2.数据预处理
2.2.1.缺失值处理
体检信息数据中45,375例体检者原始数据进行初步筛选,设定阈值剔除缺失值超过体检者2/3的体检指标,剩余102项指标,同时加入“年龄”连续变量数值指标。针对体检诊断结果表格,将“诊断类型”数量为0的患者归为“健康”,用“0”编码;诊断类型数量大于0的为“非健康”,用“1”编码。数据显示,这种归类下健康的病例为25,543例,非健康的病例为19,832例。
2.2.2.异常值处理
体检信息表诊断标志作为分类变量,存在小数的异常情况,取其整数部分。
Figure1.Distributionofagesimage
Table3.Binningandone-hotencodingofages
2.2.3.非数值变量处理
Table4.One-hotencodingandexpandedcolumnsoftaxonomicvariable
经过独热编码化加工处理后,提取的二元逻辑变量为180个。
2.3.LASSO回归模型
2.4.健康指数模型
与金融风险控制领域的个人信用风险评分类似,体检健康领域同样需要评分模型的稳健性和可解释性。但是在输入数据上,体检分类指标数据和历史信用记录数据相比,具有离散化的特点,更加适合结合LASSO回归模型的信用评分卡。因此在个人信用风险评分模型[10]的基础上,将预测模型由梯度集成决策树改进为LASSO回归模型,增加评分卡的可解释性,同时结合体检的应用场景和输入数据,建立体检评分模型。评分卡的分值刻度将分值Score表示为比率对数的线性表达式:
其中,A为补偿,B为刻度,都为常数。
需要计算参数A,B,解两个方程,得到:
3.结果
3.1.训练结果
LASSO回归模型的训练需要调整正则化参数alpha。正则化参数越高,模型适应数据的复杂性能力越低,灵活程度越低,出现欠拟合的情况。当正则化参数越小时,模型过拟合。本文使用scikit模块的LassoCV(CrossValidation),在10折交叉验证中找出最佳的alpha=0.0003433。
Figure2.CoefficientshistogramofLassomodel
Table5.Physicalexaminationitemrecordandhealthscorepredictionofsampleusers
Table6.Coefficientsofthreephysicalexaminationitems
Table7.Diagnosticresultsforthesampleusers
Table8.Physicalexaminationitemrecordandhealthscorepredictionofsampleusers
Table9.Coefficientsofphysicalexaminationitems
3.2.模型评估和比较
3.2.1.模型评估
3.2.2模型比较
对比运用PCA(主成分分析)[15]的统计方法,因获得的主成分公共因子是实际自变量因子的线性组合,所以其难以与分析健康因子的实际问题相对应。特征变量较少的样本适合使用PCA进行降维,因其对公共因子有更好的解释性,本文的体检指标数量较多(182个),不适合使用PCA分析。
Figure3.Histogramofscoredistribution
Table10.Intervalstatisticsofhealthscores
Table11.Scoresfordifferentmachinelearningmodels
其中LASSO回归模型在数据集中的准确率略优于其他模型,与之相近的梯度提升决策树只能对变量进行重要性排序[16],并不能输出非健康概率的最终计算权重系数,而LASSO回归中模型的实际系数即代表健康/非健康权重,可解释性更好。
4.结论
本文提出的健康评分指数建模中体现了区分度和稳健性,但是本文仍存在几方面问题:一是先验假设中的体检健康标准科学性问题,是否可以由疾病诊断分类中得到更加权威的体检健康标准来改进二值化设定;二是健康影响因子中各因子独立性问题,需要进一步分析加以筛选。如何更加深入地将数据科学和体检健康科学结合起来优化评分模型,是下一步研究的重点。