数据健康管理总结朱小勇

一、使用随机森林对系统参数进行故障诊断

1、模型选择

sklearn的随机森林+多输出结果模型

model=MultiOutputClassifier(RandomForestClassifier())

2、模型类型

属于分类模型,即判断系统的n个参数是否正确,或是否属于特定的类型。

举例:如参数是否属于正常的范围0~100之内,或者参数属于状态【正常、警告、故障】中的哪一状态

3、模型建立过程

提供系统n个参数的拟合数据=参数取值数据+结果标签数据,不能欠拟合和过拟合的数据,否则诊断结果可能出现误诊的情况。

举例:一个系统有3个参数温度a、整机状态b、传感器状态c,参数定义如下

温度a取值20~30正常、低于20和高于30异常;#20~30、小于20、大于20为参数取值数据,正常、异常是结果标签数据整机状态b取值0为正常、1为异常;#0、1为参数取值数据,正常、异常为结果标签数据传感器状态c取值0为正常、1为警告、2为故障#0、1、2为参数取值数据,正常、警告、故障为结果标签数据拟合数据和结果标签数据:

[正常,正常,正常]

[异常,异常,正常]

[正常,正常,故障

这样的数据需要足够多,如产生10万条数据,能将实际可能产生的数据都囊括完。产生了拟合数据之后,将数据输入给模型即可完成建模。

注意:产生数据的原则就是数据不要出现欠拟合和过拟合的情况。

欠拟合数据:

只产生了100条数据,不能囊括所有情况;特征数据太少,如一个系统本应由10个参数决定状态,这里只有3个参数。【通过增加数据和特征值解决】

过拟合数据:

产生的数据有错误,如把温度取值100当做了正常;特征值过多,如一个系统本应由2个参数决定状态,这里有3个【通过增加正确数据,减少噪声(多余的特征值)解决】

4、参数诊断及定位

通过输入真实参数取值到模型,模型即可输出对应的标签。如

输入:[25,0,0]

模型输出:[正常,正常,正常]

5、关于迭代

二、使用线性回归对系统参数进行故障诊断

sklearn的线性回归

lr=LinearRegression()2、其他和随机森林类似

模型类型、模型建立过程、参数诊断及定位和上面随机森林皆一致

3、不同之处

随机森林将大量的数据进行简单的分类,是1就是1,是2就是2,然后根据输入的真实数据,在模型中匹配最佳可能结果标签,然后输出最大概率的诊断结果

可根据实际情况选择不同模型。

greytheory的gm11【gm21还未在实际项目中使用】

grey=GreyTheory()gm11=grey.gm11

对单个参数的预测,单调性参数使用gm11,周期性参数使用gm21【随机性参数使用gm31】

如判断一个单调性参数1天后取值是多少。

举例:

某个单调增的参数,如一个城市的人口数,从今天器往前每隔1天取1次数,取1000次:

如果取值越多、间隔越小,预测结果越准确。

4、参数预测

输入:今天之前每隔1天取值,共1000次取值

模型输出:今天作为起点,1天之后的人口数预测

无法迭代,gm11是属于数学公式计算,需要每次输入多个历史取值,根据历史取值推测数下一个取值。

四、结合正态分布对数据的分析

1、参数对象

具备正态分布取值的数据。一般项目中大多数数据都属于正态分布,参数取值一般有个正常的取值范围A~B,而往往这个参数不会真正取值到A~B,而是集中在这个范围的更小一个范围。如一个器件的额定电压为220V,由于自带过压、欠压保护,即使电压上下浮动20V,也可让器件正常运行,一旦超过20V便可能损坏。而在实际运行中,如果每隔1s对输入电压采样,共采1万次【足够大】,可以发现取值往往在额定电压220V上下2~5V波动【举例,可能更小或更大】,故我们可以认为取值220V的概率更大,随着取值离220V越大,概率越小,也就是正态分布【简单的描述:正态分布就是概率与取值呈现单峰的参数,项目中可以假设一切范围取值类参数都呈正态分布,布尔、枚举类肯定不是】。

2、随机分布和正态分布图例

随机分布认为采样的数据中,200V~240V中任一电压和其他电压出现的频率一致【即概率大致相同】;正态分布认为有一个电压出现频率最高,然后频率向两边取值逐渐降低。

随机分布

正态分布

3、作用

4、参数描述

注意:由于参数取值往往是float型的,如果阈值范围较大,建议转化为int类型来处理,否则众数、中位数的结果可能出现问题。如参数范围是100.0~200.0,参数大概率取值范围是150~160,这个区间被取了1000次,由于float类型,可能导致150~160之间分成了很多份,使这个区间的同一数据被取得的次数较少;由于意外100~120之间有个数是110被取到了10次,故众数可能从150~160变成了110。

5、模型选择

numpy【用于数据生成、数据分析】、scipy【判断是否属于正态分布、数据分析】

五、使用梯度下降对系统整机进行故障诊断

sklearn的SGD模型

model=SGDClassifier(shuffle=True,loss='log')SGD可在线迭代,可是不能多参数输出

温度a取值20~30正常、低于20和高于30异常;整机状态b取值0为正常、1为异常;传感器状态c取值0为正常、1为警告、2为故障此模型只能有一个标签,故定义:只要有一个参数异常,则认为系统整机异常【0为正常,1为异常】

THE END
1.降数据分析健康数据分析 出版社:东南大学出版社 ISBN:9787564192419 出版年:2021 作者:雷迪 学科:医药、卫生 资源类型:图书 细分类型:中文文献 收藏单位馆藏地在架状态索书号 成都文献中心自然科学图书阅览室在架上61.59/ 1035 武汉文献中心流通部在架上61.22/L319/42001CB1411333 ...https://www.las.ac.cn/front/book/detail?id=35b0a58c142fc3baf6a89bd0be7067d9
2.降数据分析【书名】健康数据分析 【作者】(美)坎丹·雷迪,查鲁·阿加瓦尔编;刘云译 【出版年份】2021 【出版社】南京:东南大学出版社 【ISBN号】978-7-5641-9241-9 【内容简介】 本书对医疗健康领域的数据分析进行了全面的回顾,能够为跨学科研究人员提供一个学习医疗数据智能采集、处理和应用的基本原理、算法和应用的平台。https://hi.nju.edu.cn/info/1062/3111.htm
3.《降数据分析》(刘云)简介书评在线阅读当当网图书频道在线销售正版《健康数据分析》,作者:刘云,出版社:东南大学出版社。最新《健康数据分析》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《健康数据分析》,就上当当网。http://product.dangdang.com/29234336.html
4.关于做好2022年《国家学生体质降标准》测试和数据上报有关工作...各级教育主管部门及学校应充分应用省级大数据中心所提供的数据统计结果开展学生体质健康数据分析与应用,研判学生体质健康水平,制定相应的体质健康提升计划。探索有效途径,健全家校沟通机制,及时将学生的体质健康测试结果和健康体检结果反馈家长,形成家校协同育人合力。 http://gk.ziyang.gov.cn/details.aspx?dept=10&id=89019
5.体检宝APP产品分析报告趋势分析:同“体检”页我的报告,导航栏分为日、周、月和年,之下以瀑布流和图标形式展现个人所有健康数据。 日历:默认显示当前日期,左右滑动依次改变月份,点击具体日期查看当日健康数据,无法直接选择月份和年份。 数据展示:瀑布流形式展现健康数据,分为心血管检查、身体数据、感官检查、心理检查、运动锻炼数据五大块内容...https://www.jianshu.com/p/5587d01bee40
1.大数据降指数分析导读:一、大数据在健康领域的应用随着大数据技术的快速发展,大数据在各个行业中的应用也越来越广泛。在健康领域,大数据的应用已经成为一种趋势。大数据健康指数分析作为一种新兴的研究方 本文目录一览 1、大数据分析大数 2、分析数据大数据 一、大数据在健康领域的应用 ...http://chatgpt.cmpy.cn/article/4841778.html
2.医疗降大数据分析:趋势预测与个体化治疗医疗健康大数据是指医疗健康行业中涉及的数据,包括患者的基本信息、病历记录、检查报告、药物信息、医疗设备数据等。这些数据的规模巨大,具有很高的时空分辨率,可以帮助医疗健康行业更好地发现病例的规律,提高诊断和治疗的准确性。 2.2 医疗健康大数据分析 医疗健康大数据分析是指通过对医疗健康大数据进行挖掘、清洗、整合、...https://blog.csdn.net/universsky2015/article/details/137303891
3.中国人降大数据分析报告.pptx中国人健康大数据分析报告汇报时间:202X-12-21汇报人:目录引言中国人健康状况整体分析各年龄段健康状况分析各地区健康状况分析目录健康相关疾病分析健康服务需求与供给分析建议与展望引言0101健康问题日益突出随着生活节奏加快,环境污染、不良生活习惯等因素导致健康问题日益突出。02大数据技术应用大数据技术为健康领域提供了新的...https://m.renrendoc.com/paper/309700133.html
4.蒙纳士大学降数据科学硕士专业让你成为数字时代的“降分析师...健康数据分析硕士旨在满足数据分析师解决现实世界健康问题的高需求,例如量化新治疗方法的有效性,实施患者结果和途径的复杂建模,以及开发诊断成像分类算法。 本课程将使您能够发展这些技能,并使您能够在健康数据项目的整个过程中做出贡献,从健康问题的概念化,到确定解决方案的途径,实施尖端的分析解决方案,以及将结果传达给...https://www.idp.cn/aozhou/wenshuzhidao/466596.html
5.私人医生H1降手机深度剖析:降数据到底有什么用?比如说私人医生H1健康手机收集到心率和疲劳指数这些数据,通过AI结合这两项数据,可以分析身体的健康程度。比如,长期的睡眠不足会引起心律失常,严重的时候,可能会造成猝死。私人医生H1健康手机在长期追踪之后,可以适时推送,对用户进行提醒,并且还能与心率监测进行联动,以确认我们进入了睡眠状态,以免引发悲剧。 https://maimai.cn/article/detail?fid=715624980&efid=xBc4tv-lJRaLEtt55ywP1A
6.社交媒体中的心理降:数据方法和发现情报分析师的工具箱越来越多的研究关注于如何利用社交媒体活动来分析和改善人们的福祉,包括心理健康。有了社交媒体数据,研究心理健康问题的趋势和帮助研究人员从社交媒体获取信息来研究心理健康问题变得更加容易。社交媒体的方便访问和使用允许用户更新他们的社交媒体资料,没有时间或空间的限制。这使得社交媒体成为研究人员进行调查的首选媒介。https://www.shangyexinzhi.com/article/3861069.html
7.降分析专业美国留学项目美国留学健康分析专业美国留学项目 健康分析专业美国留学项目有哪些呢?相信这是许多正计划留学的同学关心的一个问题,那么下面小编就来和大家说一说,感兴趣的您赶紧往下了解吧。 美国常春藤健康数据分析类硕士介绍 一、Harvard健康数据分析类硕士 MS Health Data Science...https://www.eol.cn/liuxue/meiguo/zy20230913244469.html
8.CLHLS:中国老年降影响因素跟踪调查数据清洗中国老年健康调查 (1998-2018) 作为全球规模最大的高龄老人跟踪调查项目,也是国内全国范围最早、坚持时间最长的社会科学调查,也为研究者提供了大量的跟踪样本。 鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。 https://www.lianxh.cn/news/5a94e847d7a3b.html
9.学生降体检分析报告(通用10篇)建议学校多开展健康卫生保健宣传教育课,在教育教学和管理中切实指导和帮助学生搞好卫生保健,培养学生养成文明卫生的良好习惯,以增进学生身体健康。 学生健康体检分析报告 篇4 本校共有学生196人,其中男生102人,女生94人。我校联系镇医院对学生进行了健康体检,对数据进行了分析统计,根据体检情况对学生的健康情况向家长汇...https://www.wenshubang.com/baogao/800025.html
10.大降产业数据分析:2024年中国大降产业营收规模将达9万亿元但从行业现状来看,若想实现数字健康产业长久发展,更广泛地普及数字健康服务,关键在于促进行业规范化发展。尤其在保障患者的信息数据安全、隐私安全方面,政府、行业机构仍需采取行之有效的措施加以监管。 本文数据节选自艾媒咨询发布的《中国大健康产业发展环境分析与典型企业研究》数据集,完整版共42条数据,点击数据集名称查...https://www.iimedia.cn/c460/83645.html