基于体检大数据的健康指数建模HealthScoreModelBasedonBigDataofPhysicalExamination

1厦门大学信息学院(国家示范性软件学院),福建厦门

2厦门大学数学科学学院,福建厦门

摘要

关键词

机器学习,数据探索,LASSO回归,评分卡,健康指数

HealthScoreModelBasedonBigDataofPhysicalExamination

ChangkunXie1,MingqiZhao2,ShimingLin1*

1SchoolofInformaticsXiamenUniversity(NationalDemonstrativeSoftwareSchool),XiamenFujian

2SchoolofMathematicalSciencesXiamenUniversity,XiamenFujian

Received:Dec.1st,2020;accepted:Dec.31st,2020;published:Jan.12th,2021

ABSTRACT

Inrecentyears,withtherapiddevelopmentofhealthcarebigdataplatform,moreandmorephysicalexaminationdataareintegratedintothebigdataplatform.Anewchallengeishowtoimprovethequalityofmedicalservicesbyusingmassivemedicaldata.Inthispaper,weusemachinelearningalgorithmtovisuallyanalyze3,529,829physicalexaminationdataof45,374physicalexaminationusers.Onthebasisofpersonalcreditriskscoringmodel,thepredictionmodelisimprovedfromgradientintegrateddecisiontreetolassoregressionmodel,whichincreasestheinterpretabilityofscorecard.Atthesametime,combinedwiththeapplicationscenariosandinputdataofphysicalexamination,weestablishedthehealthscoremodel.Thehealthindexscorebasicallyobeysnormaldistribution,whichisconsistentwiththepriorhypothesisofthelinearregressionmodelItcanintegratevariousphysicalexaminationindicators,objectivelydescribethehealthstatusofusers,reducethecommunicationcostbetweenusersanddoctors,andurgeuserstopaymoreattentiontotheoverallhealthstatus.

Keywords:MachineLearning,DataExploration,LassoRegression,ScoreCard,HealthScore

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.引言

2.数据和分析方法

Table1.Resultsofphysicalexamination

Table2.Itemsofphysicalexamination

2.2.数据预处理

2.2.1.缺失值处理

体检信息数据中45,375例体检者原始数据进行初步筛选,设定阈值剔除缺失值超过体检者2/3的体检指标,剩余102项指标,同时加入“年龄”连续变量数值指标。针对体检诊断结果表格,将“诊断类型”数量为0的患者归为“健康”,用“0”编码;诊断类型数量大于0的为“非健康”,用“1”编码。数据显示,这种归类下健康的病例为25,543例,非健康的病例为19,832例。

2.2.2.异常值处理

体检信息表诊断标志作为分类变量,存在小数的异常情况,取其整数部分。

Figure1.Distributionofagesimage

Table3.Binningandone-hotencodingofages

2.2.3.非数值变量处理

Table4.One-hotencodingandexpandedcolumnsoftaxonomicvariable

经过独热编码化加工处理后,提取的二元逻辑变量为180个。

2.3.LASSO回归模型

2.4.健康指数模型

与金融风险控制领域的个人信用风险评分类似,体检健康领域同样需要评分模型的稳健性和可解释性。但是在输入数据上,体检分类指标数据和历史信用记录数据相比,具有离散化的特点,更加适合结合LASSO回归模型的信用评分卡。因此在个人信用风险评分模型[10]的基础上,将预测模型由梯度集成决策树改进为LASSO回归模型,增加评分卡的可解释性,同时结合体检的应用场景和输入数据,建立体检评分模型。评分卡的分值刻度将分值Score表示为比率对数的线性表达式:

其中,A为补偿,B为刻度,都为常数。

需要计算参数A,B,解两个方程,得到:

3.结果

3.1.训练结果

LASSO回归模型的训练需要调整正则化参数alpha。正则化参数越高,模型适应数据的复杂性能力越低,灵活程度越低,出现欠拟合的情况。当正则化参数越小时,模型过拟合。本文使用scikit模块的LassoCV(CrossValidation),在10折交叉验证中找出最佳的alpha=0.0003433。

Figure2.CoefficientshistogramofLassomodel

Table5.Physicalexaminationitemrecordandhealthscorepredictionofsampleusers

Table6.Coefficientsofthreephysicalexaminationitems

Table7.Diagnosticresultsforthesampleusers

Table8.Physicalexaminationitemrecordandhealthscorepredictionofsampleusers

Table9.Coefficientsofphysicalexaminationitems

3.2.模型评估和比较

3.2.1.模型评估

3.2.2模型比较

对比运用PCA(主成分分析)[15]的统计方法,因获得的主成分公共因子是实际自变量因子的线性组合,所以其难以与分析健康因子的实际问题相对应。特征变量较少的样本适合使用PCA进行降维,因其对公共因子有更好的解释性,本文的体检指标数量较多(182个),不适合使用PCA分析。

Figure3.Histogramofscoredistribution

Table10.Intervalstatisticsofhealthscores

Table11.Scoresfordifferentmachinelearningmodels

其中LASSO回归模型在数据集中的准确率略优于其他模型,与之相近的梯度提升决策树只能对变量进行重要性排序[16],并不能输出非健康概率的最终计算权重系数,而LASSO回归中模型的实际系数即代表健康/非健康权重,可解释性更好。

4.结论

本文提出的健康评分指数建模中体现了区分度和稳健性,但是本文仍存在几方面问题:一是先验假设中的体检健康标准科学性问题,是否可以由疾病诊断分类中得到更加权威的体检健康标准来改进二值化设定;二是健康影响因子中各因子独立性问题,需要进一步分析加以筛选。如何更加深入地将数据科学和体检健康科学结合起来优化评分模型,是下一步研究的重点。

THE END
1.B类产品的科学化设计与分析流程非功能性需求包括但不限于:安全性、可靠性、易用性、高并发、可维护性、可移植性等。关于非功能需求的详细描述,大家可以参考《一文读懂,产品需求的科学化挖掘流程》这篇文章关于非功能需求的介绍,在这里就不再赘述了。 2. 重要性排序 对于非功能去求重要性的排序,可以通过"威胁影响度"和"出现频率"进行判断。 https://www.jianshu.com/p/6b493177ea19
2.薪酬体系全景设计(三)理清公司内各岗位的重要性排序 不同的岗位,对企业的贡献大小不同,对人员的知识和技能要求也不同。 企业应该根据员工所从事的工作对企业贡献多少、责任大小以及其他相关因素 来支付不同的报酬。不同岗位的价值该如何衡量、对企业的贡献该如何判断、 http://www.360doc.com/content/10/1020/20/2591606_62563258.shtml
3.《2023年全国道路空洞检测行业发展报告》正式发布增发的国债全部通过转移支付方式安排给地方,集中力量支持灾后恢复重建和弥补防灾减灾救灾短板,整体提升我国抵御自然灾害的能力,将对作为城市防灾减灾工作的重要一环的城镇道路空洞检测行业,产生积极而深远的影响。 2023年是国家推进“城市体检”与“城市更新”行动的重要一年,住房城乡建设领域坚持问题导向和目标导向相结合,...http://roadradar.cn/news/detail/id/99.html
4.梳理了一下,自己认为重要的事情做了一个排序,依次是降,工作,家庭...梳理了一下,自己认为重要的事情做了一个排序,依次是健康,工作,家庭,投资,朋友,其他。说说自己的理解。 毫无疑问健康应该是第一位的,这是人生一切意义展开的基础和前提,没有健康这个一,后面的所有零都失去了意义。怎么才拥有健康的身心?做到四条。1.管住嘴。也就是饮食有度,我自己的认识和体会是食无求饱,最好...https://xueqiu.com/8401519766/140022621
5.医疗机构(医院)降体检质量管理与控制指标(完整版).doc内容完整,至少含有个人基本信息、各科体格检查记录、实验室和医学影像学检查报告,主检结论、健康建议以及各检查科室医护人员签名; 2.各科室对于阳性体征的解释和建议必须符合诊疗常规;主检结论不能与报告中相关科室记录的体征或提出的建议相矛盾;主检结论中阳性结果应按重要性排序; 3.体检报告主检结论需由主检医师...https://max.book118.com/html/2021/0416/5000244234003221.shtm
6.高考志愿体检按照什么标准执行本文解答了关于《高考体验与志愿填报有什么关系都体检哪些项目》相关内容,同时关于1、高考志愿体检按照什么标准执行,2、高考体检对志愿填报的重要性,3、高考体检和高考有关系吗,4、高考体检如何安排志愿填报,5、高考填报志愿体检限制,的相关问答本篇文章福途教育网小编也整理了进来,希望对您有帮助。 http://www.designclub.com.cn/243359.html
7.体检查全血是查什么理想股票技术论坛体检查全血是查什么,体检查全血项目, 血液指标体检测试, 全血检查内容 在体检过程中,通过查看全血样本可以了解个体的血液指标情况,包括红细胞、白细胞、血小板等各项指标,从而评估个体的健康状况和疾病风险。 全血有哪些指标在体检中的重要性是什么? [股票软件指标公式技术交流] 你好好112 2024-2-28 相关标签:...https://www.55188.com/tag-7338024.html
1.降体检对疾病防治重要性,中国人疾病谱变化趋势?有了体检,我们就能发现以往我们所不了解的情况,就能使健康保健工作落实到实处,更加有针对性地治疗和预防疾病,确实做到防患于未然。 近年来,人们深切地体会到体检的重要性,也越来越重视体检,每年通过体检发现疾病而得到及时治疗的病例也很多。如某单位一年完成了1930名工作人员的体检,人员的年龄分布为:36?44岁组52...https://www.kktijian.com/zhinan/5890.html
2.高考志愿填报技巧热门平行志愿按照“分数优先,遵循志愿”的原则进行投档,对同一科类分数线上未被录取的考生按总分从高到低排序进行一次性投档,每个考生投档时,根据考生所填报的院校顺序,投档到排序在前且有计划余额的院校。 遵循“学校优先”原则 原则上能上985,不上211;能上双一流,不上“双非”院校!以此类推 ...https://mip.oh100.com/a/202303/6290154.html
3.幼儿园大班下册降教育计划(通用17篇)(2)开展好健康教育传播活动:各种健康教育宣传活动要根据时间安排组织好,如开学第一周是"防近宣传周",我们就大力宣传"防近"的知识和重要性 要用多种形势、板报、宣传窗、广播、电视、讲座等。3月15日至4月15日的."卫生宣传月"活动、"520"营养日活动、"920"爱牙日活动、"121"艾滋病防治宣传日专题宣传活动。https://www.unjs.com/fanwenku/303874.html
4.酒店员工评估范文酒店成员则是酒店具有代表性的通常来说是酒店高管和中层管理者,他们对酒店的整体、每个环节、岗位及其各个要素在酒店中的重要性有较为客观的全局性的认识。 (2)打分。根据《生态酒店功能说明书》和酒店实际情况测评小组对每个指标进行打分,分值的标准采用统一的100分制,并根据数据处理结果进行排序,同时对不合理的指标...https://www.360wenmi.com/f/filef952dcpy.html
5.2024十大体检品牌排行榜体检排行榜前十名→Maigoo品牌网华检健康体检 上海华检健康体检管理有限公司 体检的重要性 1、做好健康管理 健康体检的真正意义并不只在于检测身体有没有疾病,还要看有没有得病的风险,充分了解自己的身体状况,根据体检报告的数据及时调整自身的生活方式、饮食习惯等,达到主动管理健康治未病的目的。 2、早发现早治疗 随着时间、年龄、生活、工作节...https://m.maigoo.com/best/11499.html