一种基于多中心模式下随机森林算法的特征重要性排序系统的制作方法

本发明属于特征选择技术领域,尤其涉及一种基于多中心模式下随机森林算法的特征重要性排序系统。

背景技术:

特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。特征选择可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,增强对特征和特征值的理解,是数据科学领域的关键问题之一。在生物医学领域,经常需要处理诸如组学数据集之类的高维数据,其中变量的数量通常远大于个体的数量,这种情况下特征选择的意义显得尤为重要。随机森林是一种在生物医学领域应用非常广泛的集成学习算法,它能够在分类过程中提供变量重要性的估计,被认为是一种有效的特征选择算法。

多中心数据协同计算是大数据背景下出现的应用场景,它是指地域上处于分散状态的一个群体借助计算机和网络技术,互相协作共同完成一项任务。基于多中心的数据进行特征选择是其中一项重要问题。在大数据背景下,各个中心数据协同计算的需求越来越大。

现有的解决方案需要将各个中心的数据取出,汇集在中心服务器上。接着在中心服务器上进行特征选择,得到全局性的特征选择结果。然而,将数据从各个中心取出的过程隐患重重,可能涉及到数据泄露这样的安全性问题,大大打击了中心之间的协同计算的积极性。尤其在生物医学领域,各个中心也就是各家医院的数据中包含了来医院就医患者的个人隐私,将数据取出集中处理的方法不利于保护患者隐私,具有很大风险。

技术实现要素:

本发明目的在于针对现有技术的不足,根据现实需求,在不暴露各个中心的数据的条件下,提供一种基于多中心模式下随机森林算法的特征重要性排序系统,本系统中各个中心的数据始终在各中心,只向中心服务器传递模型的中间参数,不传递原始数据,最终得到安全有效的全局性的特征重要性排序结果。

本发明的目的是通过以下技术方案来实现的:一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。

所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:

a.从本中心数据库接口读取数据作为样本集;

b.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;

c.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;

d.重复步骤b-c共q次,q即为随机森林中决策树的个数;

e.用训练得到的随机森林对样本集进行预测;

f.利用基尼指数作为评价指标对步骤e的预测结果进行特征重要性排序,包括以下子步骤:

a)假设样本集有h个特征x1,x2,x3,...,xh,对于每个特征xj,计算特征xj在节点m的重要性即节点m分枝前后的基尼指数变化量,公式如下:

其中,gim表示分枝前节点m的基尼指数,gil和gir分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:

其中,k表示有k个类别,pxk表示节点x中类别k所占的比例;

b)假设特征xj在决策树i中出现的节点构成集合e,那么xj在第i棵决策树的重要性为:

c)假设随机森林中有q棵树,计算每个特征xj的基尼指数评分亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:

d)将特征xj的基尼指数评分进行归一化处理,公式如下:

e)对所有特征归一化后的基尼指数评分进行降序排序;

所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:

a.接收各中心传来的特征重要性排序结果;

b.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;

c.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。

本发明的有益效果是:本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心的数据的条件下,本系统中各个中心的数据始终在中心,只向中心服务器传递模型的中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。

附图说明

图1为本发明基于多中心模式下随机森林算法的特征重要性排序系统实现流程图;

图2为本发明基于多中心模式下随机森林算法的特征重要性排序系统组成框图;

图3为各中心前置机内特征重要性排序流程图;

图4为中心服务器内全局重要性排序流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1、2所示,本发明提供的一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。

所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,如图3所示,具体计算步骤如下:

所述中心服务器计算全局特征重要性排序结果,如图4所示,包括以下子步骤:

以下为一个具体的实例,该实例展示了一种基于多中心模式下随机森林算法的由体检数据预测糖尿病患病风险的特征重要性排序系统,该系统包括:部署在参与协同计算的各医院内的前置机;接收并整合各医院特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。

所述前置机用于从各医院的数据库接口读取体检数据,并利用随机森林算法预测糖尿病患病风险,计算出本医院内的糖尿病患病风险特征重要性排序结果,具体计算步骤如下:

a.从本医院数据库接口读取体检数据作为样本集,假设共有5000例体检数据;

b.用有抽样放回的方法(bootstrap)从样本集中随机选取70个样本作为一个训练集;

c.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择7个特征,利用这7个特征分别对训练集进行划分;

d.重复步骤b-c共15次,15即为随机森林中决策树的个数;

a)假设样本集有50个特征--年龄、性别、文化水平、腰围、血型、收缩压、血红蛋白等等特征,记为x1,x2,x3,...,x50。对于每个特征xj,计算特征xj在节点m的重要性即节点m分枝前后的基尼指数变化量,公式如下:

c)已知随机森林中有15棵树,计算每个特征xj的基尼指数评分亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:

所述中心服务器内计算体检数据中影响糖尿病患病风险的全局特征重要性排序结果,包括以下子步骤:

a.接收各医院传来的特征重要性排序结果;

b.对于每个特征,求得该特征在所有医院的基尼指数评分的平均值作为全局性特征重要性值。例如对于特征糖化血红蛋白,它在医院甲的特征重要性评分为0.182483,在医院乙的特征重要性评分为0.150948,在医院丙的特征重要性评分为0.078243,那么它在医院甲、医院乙、医院丙联合开展的多中心体检数据糖尿病风险预测研究中的全局特征重要性值为:(0.182483+0.150948+0.078243)/3=0.137224。

本发明在每个站点计算基于基尼指数的局部变量重要性排序,并将其发送到中心服务器。中心服务器整合各个站点的变量重要性排序并计算得出最终的排序结果。在此过程中,中心服务器仅接收各站点的变量重要性排序结果,无需交换患者级别的数据,既得到了有效的全局解,又有效地保障了数据的安全性,为构建特征筛选模型提供了安全可靠高效的解决方案。

以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

THE END
1.B类产品的科学化设计与分析流程非功能性需求包括但不限于:安全性、可靠性、易用性、高并发、可维护性、可移植性等。关于非功能需求的详细描述,大家可以参考《一文读懂,产品需求的科学化挖掘流程》这篇文章关于非功能需求的介绍,在这里就不再赘述了。 2. 重要性排序 对于非功能去求重要性的排序,可以通过"威胁影响度"和"出现频率"进行判断。 https://www.jianshu.com/p/6b493177ea19
2.薪酬体系全景设计(三)理清公司内各岗位的重要性排序 不同的岗位,对企业的贡献大小不同,对人员的知识和技能要求也不同。 企业应该根据员工所从事的工作对企业贡献多少、责任大小以及其他相关因素 来支付不同的报酬。不同岗位的价值该如何衡量、对企业的贡献该如何判断、 http://www.360doc.com/content/10/1020/20/2591606_62563258.shtml
3.《2023年全国道路空洞检测行业发展报告》正式发布增发的国债全部通过转移支付方式安排给地方,集中力量支持灾后恢复重建和弥补防灾减灾救灾短板,整体提升我国抵御自然灾害的能力,将对作为城市防灾减灾工作的重要一环的城镇道路空洞检测行业,产生积极而深远的影响。 2023年是国家推进“城市体检”与“城市更新”行动的重要一年,住房城乡建设领域坚持问题导向和目标导向相结合,...http://roadradar.cn/news/detail/id/99.html
4.梳理了一下,自己认为重要的事情做了一个排序,依次是降,工作,家庭...梳理了一下,自己认为重要的事情做了一个排序,依次是健康,工作,家庭,投资,朋友,其他。说说自己的理解。 毫无疑问健康应该是第一位的,这是人生一切意义展开的基础和前提,没有健康这个一,后面的所有零都失去了意义。怎么才拥有健康的身心?做到四条。1.管住嘴。也就是饮食有度,我自己的认识和体会是食无求饱,最好...https://xueqiu.com/8401519766/140022621
5.医疗机构(医院)降体检质量管理与控制指标(完整版).doc内容完整,至少含有个人基本信息、各科体格检查记录、实验室和医学影像学检查报告,主检结论、健康建议以及各检查科室医护人员签名; 2.各科室对于阳性体征的解释和建议必须符合诊疗常规;主检结论不能与报告中相关科室记录的体征或提出的建议相矛盾;主检结论中阳性结果应按重要性排序; 3.体检报告主检结论需由主检医师...https://max.book118.com/html/2021/0416/5000244234003221.shtm
6.高考志愿体检按照什么标准执行本文解答了关于《高考体验与志愿填报有什么关系都体检哪些项目》相关内容,同时关于1、高考志愿体检按照什么标准执行,2、高考体检对志愿填报的重要性,3、高考体检和高考有关系吗,4、高考体检如何安排志愿填报,5、高考填报志愿体检限制,的相关问答本篇文章福途教育网小编也整理了进来,希望对您有帮助。 http://www.designclub.com.cn/243359.html
7.体检查全血是查什么理想股票技术论坛体检查全血是查什么,体检查全血项目, 血液指标体检测试, 全血检查内容 在体检过程中,通过查看全血样本可以了解个体的血液指标情况,包括红细胞、白细胞、血小板等各项指标,从而评估个体的健康状况和疾病风险。 全血有哪些指标在体检中的重要性是什么? [股票软件指标公式技术交流] 你好好112 2024-2-28 相关标签:...https://www.55188.com/tag-7338024.html
1.降体检对疾病防治重要性,中国人疾病谱变化趋势?有了体检,我们就能发现以往我们所不了解的情况,就能使健康保健工作落实到实处,更加有针对性地治疗和预防疾病,确实做到防患于未然。 近年来,人们深切地体会到体检的重要性,也越来越重视体检,每年通过体检发现疾病而得到及时治疗的病例也很多。如某单位一年完成了1930名工作人员的体检,人员的年龄分布为:36?44岁组52...https://www.kktijian.com/zhinan/5890.html
2.高考志愿填报技巧热门平行志愿按照“分数优先,遵循志愿”的原则进行投档,对同一科类分数线上未被录取的考生按总分从高到低排序进行一次性投档,每个考生投档时,根据考生所填报的院校顺序,投档到排序在前且有计划余额的院校。 遵循“学校优先”原则 原则上能上985,不上211;能上双一流,不上“双非”院校!以此类推 ...https://mip.oh100.com/a/202303/6290154.html
3.幼儿园大班下册降教育计划(通用17篇)(2)开展好健康教育传播活动:各种健康教育宣传活动要根据时间安排组织好,如开学第一周是"防近宣传周",我们就大力宣传"防近"的知识和重要性 要用多种形势、板报、宣传窗、广播、电视、讲座等。3月15日至4月15日的."卫生宣传月"活动、"520"营养日活动、"920"爱牙日活动、"121"艾滋病防治宣传日专题宣传活动。https://www.unjs.com/fanwenku/303874.html
4.酒店员工评估范文酒店成员则是酒店具有代表性的通常来说是酒店高管和中层管理者,他们对酒店的整体、每个环节、岗位及其各个要素在酒店中的重要性有较为客观的全局性的认识。 (2)打分。根据《生态酒店功能说明书》和酒店实际情况测评小组对每个指标进行打分,分值的标准采用统一的100分制,并根据数据处理结果进行排序,同时对不合理的指标...https://www.360wenmi.com/f/filef952dcpy.html
5.2024十大体检品牌排行榜体检排行榜前十名→Maigoo品牌网华检健康体检 上海华检健康体检管理有限公司 体检的重要性 1、做好健康管理 健康体检的真正意义并不只在于检测身体有没有疾病,还要看有没有得病的风险,充分了解自己的身体状况,根据体检报告的数据及时调整自身的生活方式、饮食习惯等,达到主动管理健康治未病的目的。 2、早发现早治疗 随着时间、年龄、生活、工作节...https://m.maigoo.com/best/11499.html