闭关4年,投入8亿资金,500位顶级数据科学家完成了一个“脏活儿”

闭关4年,投入8亿资金,500位顶级数据科学家完成了一个“脏活儿”

许多人有所不知,国内现有的信息化系统已经超过4000个,平均每家医院使用的超过100个,这些系统对数据的结构和表达存在很大差异,这其中有超过半数数据是自然语言的文本,而每家医院的科室甚至医生对信息的书写方式都可能不同,这种极度复杂性让计算机无法理解数据且进行计算。

如果换成人工执行,500人终其一生也无法处理数十亿的病历。

但是有这么一家公司,确实做到了。经过4年的不懈努力、8亿元的巨额投入,500位科学家的执着,纵深大量疾病研究,“在泥泞中砥砺前行,打造未来数字医疗的基础设施”,最终获得了近百家中国顶级医疗研究机构(排名前150)和政府机构的信任。这家公司就是医渡云。

“20人、8亿元、12亿份、2000万个”

至今,他们协助医疗机构完成超过12亿余份病历资料的数字化与数据化处理,从中建立超过2000多万个诊断名的标准化,这意味着每天的病历处理数量高达70万份、每天至少需建立超过1.5万个标准化诊断名。国内排名前150家医院中三分之二是它的合作客户。今年,他们还将与10个省市政府机构,合作建立起区域化医疗数据平台。

“20人、8亿元、12亿笔、2000万个”,这些数字,代表着一家中国原创公司的崛起。或许这些数字在大多数人眼中并不特别,但正是这些数字背后的力量在推动中国医疗改革,用数据人工智能改善民生。

医渡云正在改变中国医疗行业的样貌。

这一波人工智能的复兴,在中国出现了许多赢得巨额融资的初创公司,没有镁光灯照射的医渡云在公众界显得有点“默默无名”。尽管获得大型投资机构投资,从技术开发、落地、到串起产学研三大环节,早已超过独角兽的身价,但他们从未对外公布。

而且,他们所做事情的起点,实际上也是整个医疗过程中相当辛苦的部分--把原始数据变成可用数据,即“大数据的基础处理”。

“医疗这件事,大家都想做,比如说挂号、帮你找专家等,我不否认他们的价值,但最最基础的工作,把原始数据变成可用数据这种‘脏活’,没人愿意做”医渡云创始人宫如璟开玩笑的说。但事实的确如此,建立基础的活最难做,就像盖房子打地基一样,因此很少有初创公司会像医渡云一样选择切入技术门槛很高的基础系统。

他们为中国医疗体系打“地基”的进展如何呢?医渡云处理病历数累计12亿余份,整理出2000多万个诊断名。能把分散的、非结构、非标准化的数据自动转化成标准可用的,而且聚集起来,这就是医渡云的技术本事。

有了这个一致化的数据集后,基础架构平台可以发挥效用的空间就被彻底打开了。

敢啃“硬骨头”,才能构建起庞大规模平台

在诸多公司里,大多数是选定一、两个领域切入,鲜少看到一家公司像医渡云一样,战线拉得这么远:开发的“医学数据智能平台”(DPAP)涵盖从基础科研、临床系统、医院管理系统,再到跨院跨区的合作共享,但却又能全盘统筹、协作有秩,而非“PPT造车”式的纸上谈兵。

在数据领域产生质的突破,才能解密整个产业链。这也是产业链中最“硬”的骨头。原因除了重视隐私保护的行业特性,使得对科技的评估、导入相对较慢之外,很多数据是属于非结构化甚至医生个性化的自然语言文本,例如医生主观撰写的病历、巡诊纪录,而且信息散落院内各部门,也导致了数据运用之难。

要突破这个瓶颈,第一件事就是得有一个基础设施平台,接着再让平台上长出各种智能模块,并且能与医院现有的系统对接。

这件事有多难?医渡云首席技术官(CTO)徐济铭举了一个具体的例子,同一个疾病,每位医生的写法可能都不同,例如“二型糖尿病”的“二”,有人写汉字、阿拉伯数字等,还有人会写糖尿病二型、或是Type2Diabetes,这还只是最简单的一种,很多拗口的疾病有更多复杂的写法,尽管在医疗诊断里有所谓的国际疾病分类编码标准(ICD),不过也才2万多种,不足以应付实际情形的发展。

想要解决这个问题,就必须让机器看懂不同说法其实都是指同一种疾病。而这个问题还只是DPAP平台上数不清的问题中的一个“小”问题,解决它都需要计算机对自然语言中词语的结构和语义有深刻的理解才能做得到。

而医渡云开发的基础平台可以把过去分散的、来自不同厂商的数据等,快速转变为标准化,而且符合CFDA和美国食品药物监督管理局(FDA)认可的数据。

300个模块功能背后的超长战线

医渡云的四位创始人不断提及的一个理念就是:“改善人类与疾病的关系”,但具体要如何“改善”?这个重任实际上就落到了他们的医疗大数据平台上。

真正制约医疗大数据发挥价值的主要瓶颈,在于数据平台从集成到处理,再到应用这三个维度的能力。这就意味着,仅仅将数据从不可用变为可用,只是医渡云使命的起点,如何在可用数据的基础上构建出相应的应用,同样是至关重要的一个环节。

如今,在数据智能驱动下,其核心基础“医学数据智能平台”已经搭载了300多个应用模块,贯穿整个医疗过程。

根据国际国内医学标准,目前医渡云已经完成了对不少疾病的不同核心信息的整合和识别,构建出25个大病种、3000多个疾病的模型,而这个成果数字还在不断扩大。

目前,支撑医渡云所拥有的300多个功能模块的技术,涵盖了近年来颇为关键的基础算法和人工智能技术,涉及到医学自然语言处理、医学影像处理、医学知识图谱构建、医疗大数据挖掘、大规模(深度)机器学习模型及应用等,这其中有多个项目,更是目前全球学术研究发展的热点所在。

爬过15座山之后迎来质变

系统开发完成后,新的挑战就是落地。医渡云在2017年开始将产品推向商业化,现在国内排名前150的医院有超过三分之二成了它的客户。

“究竟是怎么办到的?”得到的答案很诚实且很诚恳,“就是慢慢做,第一家是最难的,花了1年2个月才上线,前15家几乎没有网络效应,产能上不去,很痛苦,”宫如璟回忆说。

医渡云在2013年成立时,尽管行业能接受这种大数据、AI创新的理念,但部分医院的策略仍偏保守,更大程度上是出于与商业公司进行数据合作在数据安全性与合规性上的担心和不安。医渡云的数据安全技术、数据合规保障机制一步步被医院感知,这一瓶颈才被打破。

“在跨越了15家客户后,平台网络的价值快速扩大,量变产生质变”。现在医渡云已处理医院10几年的数据,完全不用人工,最快两周就可以完工上线。

CTO徐济铭则是中国科学院研究生院计算机应用专业硕士,曾负责百度搜索服务团队、框计算团队等核心技术团队,也曾获选百度最有价值员工。首席战略官(CSO)何直,早先曾是阿里巴巴集团产品总监,领导了天猫大数据平台建设,在连续创业的历程中,先后创立了专攻大数据挖掘的精准营销软件及服务的杭州数云信息等四家公司。

宫如璟笑着说,现任首席数据科学家彭涛,“还是当时跟今日头条抢的,他加入的原因是他觉得我们的东西更难,有挑战”。很多员工都是基于想要一起改变中国医疗现状的这股热情而加入。

去年底,医渡云找来了前微软亚洲研究院资深研究经理,专攻自然语言处理与知识工程研究的闫峻,出任首席人工智能科学家,并且延揽了美国斯坦福大学统计系教授王永雄,担任首席数据科学顾问,强化了这家学霸公司的阵容。

随着业务快速增长,团队人数过去几年都是翻倍的增长,到了今年底预计会达到800余人,其中研发团队占比高达60%以上,大部分都是来自全球/国内的知名互联网公司和顶尖实验室;还有20%的团队是完全专注在医学领域,因此整家公司有高达80%以上的人力资源都是在做医疗领域研发。

跨区整合,数据智能辐射至药物研发和医保

在与医疗机构的顺利合作之后,医渡云将目光放得更远。孙喆透露,建立跨区的数据中心将是今年的工作重点,预计建立10个左右省级层面的区域医疗数据中心。

医疗数据中心会把当地的三甲医院、二级、三级医院的数据通通集中到这个区域的云平台上,因为跨院数据的集中共享,帮助患者能够建立起一个完整的患者健康档案,患者不必带着病历到处跑,医院之间也能有效的为患者做全面的健康类服务。

对于药物研发的效益,医渡云希望推动医院和医院之间的联合。例如每一家医院现在都有自己的新药研发基地,当制药企业某个新药研发项目联合区域的时候,承接能力会变得更强,将会加快新药上市。“同时也可对政府提供整个公共决策的支撑”孙喆强调。

去年,医渡云与重庆医科大学联合共建了重庆医科大学医渡云医学数据研究院,成为国家首个医学数据二级学院。一同与国家食品药品监督管理总局(CFDA)展开了药品不良反应的合作,基于整个重庆区域人群分析基础之上,有效分析出该区域的药品使用情况、具有重庆特殊性的不良反应等,这就是区域平台的庞大效能。

通过这样的合作,除了了解中国药品不良反应的发生情况,还有一个很大的意义在于拉动制药产业,以及建立一个聚集产管学研力量的优质监测机制。

由此可见,医渡云的服务已经从最初只面向医疗机构,走到了区域平台、辅助公共决策的层次上。

不久前,医渡云也与南京医科大学签约,作为合作伙伴承建江苏省转化研究院国家级新药创制项目的信息平台,致力于“让药品的研发必须朝品质更好、更安全、更便宜”。

除了临床试验外,新药上市后的不良反应监管一直也是业界的难题。

而制约医疗行业变革的另一个核心因素则是医保的管理。只有医保作为支付方能更加科学的去评估一个疾病的支付方式和定价,才能从根本上帮助整个医疗市场形成良性循环。

近期,医渡云即将宣布与清华大学自动化系合作建立智慧医疗自主系统联合研究中心,针对医保领域的应用从理论和方法上进一步深入创新。未来面向医保的应用不论是核心技术或系统架构设计将会不停向上升级。

医渡云现在正在做的,就是帮助医疗产业和外部产业融合。近日,医渡云与人民健康在医疗大数据领域在推动医疗创新产业发展、共同搭建人民健康云平台、医疗数据质量评价体系研究与评价标准制定等方面开展广泛合作,在医疗健康服务创新领域开展积极探索,助力“健康中国”战略实施和“国家大数据战略”落地。这不仅牵涉到14亿人的健康,如果发展得顺利,还可以为全人类做出贡献。毕竟,互联网+医疗健康已经成为中国医疗行业变革的重要举措,医渡云将披荆斩棘、砥砺前行。

不感兴趣

看过了

取消

人点赞

人收藏

打赏

我有话说

0/500

同步到新浪微博

进群即领

扫码加入

扫码进群

您的申请提交成功

意见反馈

下载APP

健康界APP

了解更多

返回顶部

您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!

THE END
1.网安AIGC专题46篇前沿代码大模型论文24篇论文阅读笔记汇总...本系列文章不仅涵盖了46篇关于前沿代码大模型的论文,还包含了24篇深度论文阅读笔记,全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向,深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时,本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据集,以及与网络安全紧密相关的模型安全问题...https://developer.aliyun.com/article/1403555
1.超级硬盘数据恢复专业版,全方位数据拯救利器1. 超级反删除算法:对于FAT32分区被ShifDel删除掉的文件,超级硬盘数据恢复专业版可以完美恢复,即使是其他软件恢复出来的受损文件,也能通过本软件进行修复。 2. 超级反格式化算法:对于被格式化的分区,本软件可以扫描FAT/FAT32、TFS和exFAT文件系统的目录文件,自动在内存中重建原来的分区目录结构,无需将分区格式回原来...https://www.wllake.com/news/1114.html
2.数据科学学院吴保元教授的四篇论文被三大顶尖会议收录香港中文...此次被ECCV 2020收录的四篇论文分别是《利用随机符号翻转提升基于决策的黑盒攻击算法》《SPL-MLL: 选择可预测标记的多标签学习》《3D点云分类基于联合梯度对SOR防御的高效攻击》《用于图像修复的像素级密集检测器》。论文详细信息如下: Boosting Decision-based Black-box Adversarial Attacks with Random Sign Flip ...https://cuhk.edu.cn/zh-hans/article/6255
3.固态硬盘坏了数据可以恢复吗Get联想百应数据恢复指南想要确保数据安全,更简单的方式是寻找如联想百应数据恢复服务这样的专业团队,帮你寻找数据丢失的原因并对症修复,在“顶尖技术”和“专家团队”的操作下,能够确保数据恢复得更加安全、可靠。https://www.citreport.com/news/195462-1.html
4.如何才能成为顶级的数据分析师?每个行业都有好的数据分析师,但如何定义顶尖呢? 顶级的数据分析师一定会在数据变现最牛逼的行业里存在,比如金融风控或者数字广告行业,这些业务是真正的数据驱动,因为数据上差一点点,效益就会差一大截。 这里以运营商推出的“基于信用分的欠费免停机服务”为例来说明顶级数据分析师(为了描述方便,称其为A君)应该发挥...https://blog.csdn.net/weixin_41715077/article/details/104905431
5.QQ飞车手游QQ飞车1.46.0.56919手游官方版下载1.修复了道具赛中墨汁加雷的逻辑判定问题 2.修复了超能竞速赛中飞机与赛道中的空气墙产生穿插和卡位的问题 3.修复了边境模式中一骑绝尘分享图次数错误的问题 4.修复了拉黑其他玩家后仍可收到对方好友申请的问题 3月4日 【更新内容】 1.新玩法-赏金车王 顶尖车手 赏金竞逐 2.新模式-车队队标赛 争夺队标 车...https://app.ali213.net/android/124789.html
6.qq飞车破解版无限钻石下载最新版下载1.修复了道具赛中墨汁加雷的逻辑判定问题 2.修复了超能竞速赛中飞机与赛道中的空气墙产生穿插和卡位的问题 3.修复了边境模式中一骑绝尘分享图次数错误的问题 4.修复了拉黑其他玩家后仍可收到对方好友申请的问题 3月4日 【更新内容】 1.新玩法-赏金车王 顶尖车手 赏金竞逐 2.新模式-车队队标赛 争夺队标 车...https://www.luobowin10.com/game/8483.html
7.只有1%的美国人是农民!中美农业差距究竟在哪里?世界顶尖涉农企业高管经验分享,加州顶尖农场农场主亲述成功简史,更能够作为当地农业会议的参会一员,与当地厂商及政府官员进行近距离的思想碰撞,洞察加州当地企业与国内农企之间的差异化经营方式。 ?实感 实地感受美国闻名世界的涉农公司与大型食品加工企业,参加美国国际农业机械展览会,借鉴美国企业顶尖的组织化管理,体会美...https://www.jianshu.com/p/3596746dd46a
8.2022年InForSec“网络空间安全”大学生夏令营学术专场,快来和导师...随着人工智能技术的发展和应用,其安全性问题也广受关注。本报告围绕AI安全,结合最新的相关研究进展及本团队在相关方面的研究成果,针对AI系统中信息传递全流程的安全风险及攻防技术开展介绍,覆盖AI系统的数据层、模型层、框架层的安全分析,并介绍相关的测试评估与修复技术。 https://www.inforsec.org/wp/?p=5400
9.犀牛鸟视野现场报道SIGMOD2019数据库顶级会议(下篇)“ 导语: ACM SIGMOD/PODS 2019 数据管理国际会议6月30日到7月5日在荷兰首都阿姆斯特丹召开。腾讯技术团队直击现场第一时间带回大会盛况 ” 回顾SIGMOD第一天大会Keynote主题为“Responsible Data Science”,而第二天的Keynote主题是区块链,更偏应用一些,...https://cloud.tencent.com/developer/article/1459164
10.DuodaaMaster发布的文章软科中国最好学科排名的指标体系包括人才培养、科研项目、成果获奖、学术论文、高端人才五个指标类别,下设16个指标维度,共计50余项反映学科竞争力的客观量化指标。排名数据全部来自第三方数据源,如教育部、科技部、国家自然科学基金委员会、国际和国内文献数据库等。 http://www.duodaa.com/blog/index.php/author/1/2/
11.足球经理2025手机版足球经理2025下载v1.0.15、招募经纪人和球探,协助寻找转会市场中的顶尖人才 6、沉浸式和精彩的赛评解说让你始终处于行动的核心 7、使用教练来培养球员的技术和体能 ...足球经理2025更新日志 1、改进游戏玩法 2、问题修复 足球经理2025测评 游戏刺激的比赛可以去攻略,超多奖励免费领取!https://m.19yxw.com/game/7922.html
12.人工智能心得(精选17篇)机器学习和5G技术综合的产物,做好人工智能教育能实现不断提升人们生活的质量,在论坛中,刘三女牙教授指出人工智能教育的智能化新模式正在形成,其教育的着力点集中在算力、数据处理、算法以及场景化的学习,使学生对教材可以理解,教育情景可以感知,学习服务可以定制,使人工智能教育从智能增强,转变为智能补偿,最终达到智能...https://www.jy135.com/xindetihui/948815.html
13.人工智能心得体会(精选13篇)这些新领域有分布式人工智能与艾真体(agent)、计算智能与进化计算、数据挖掘与知识发现,以及人工生命等。下面逐一加以概略介绍。...自然生命系统行为具有自组织、自复制、自修复等特征以及形成这些特征的混沌动力学、进化和环境适应。 人工生命所研究的人造系统能够演示具有自然生命系统特征的...https://www.oh100.com/a/202212/5696010.html
14.人工智能心得体会(通用11篇)这些新领域有分布式人工智能与艾真体(agent)、计算智能与进化计算、数据挖掘与知识发现,以及人工生命等。下面逐一加以概略介绍。...自然生命系统行为具有自组织、自复制、自修复等特征以及形成这些特征的混沌动力学、进化和环境适应。 人工生命所研究的人造系统能够演示具有自然生命系统特征的...https://m.ruiwen.com/xindetihui/5729744.html
15....个股概要股票价格最新资讯行情走势历史数据$中国神华(01088)$ $中国神华(601088)$ 中国神华已于8月30日发布最新财报,数据显示:2024年上半年公司实现营业收入1680.78亿元,同比下降0.8%;归属于本公司所有者的本期利润327.71亿元,同比下降11.1%。具体内容及解读如下: 一、利润表分析 中国神华在2024年上半年的收入为1680.78亿人民币,较2023年同期减少了1.36亿人民...https://www.laohu8.com/stock/601088
16.美国顶级数据科学项目推荐美国留学近年来,越来越多的中国学子选择留学,那其中美国顶级数据科学项目推荐?本文则针对这个问题,为大家整理了资料,接下来咱们就一起往下了解吧。 1.项目特色: 哈佛大学的数据科学硕士课程成立于 2018 年,是一个相对比较新的研究生项目。它由计算机科学和统计系共同领导,受应用计算科学研究所(IACS)管理 ...https://www.eol.cn/liuxue/wenda/mg20231022277827.html
17.中国岩石力学与工程学会2022年度工作报告《地下空间与工程学报》目前已被"中国科学引文数据库(CSCD)来源期刊(核心版)"、"中文核心期刊要目总览"、"中国科技论文统计源核心期刊"、"RCCSE中国核心学术...通过学会开展学术交流、科技评估等活动,汇聚顶尖级科技创新人才不断充实学会科技智库,截止2022年10月在库专家总人数880人,新增53人。三个子库:院士专家库64...http://www.csrme.com/Academic/Content/show/id/4036.do
18.建立一个高效的SandyBridge平台一个非常有趣的新功能是快速同步,用极快的Sandy Bridge处理器可以难堪最强大的视频卡(NVIDIA CUDA,ATI流),它可以转换视频内容,我最初没有想到但我相信,当我把CPU的工作(i7 2600)。 今天是一个顶尖的系统,我们选择了市场上最好的部件,我没有花冤枉钱,我把最好的部分,但我住在眼预算,这是很难性能水平上涨发...https://zh-cn.videotutorial.ro/configurarea-unui-sistem-performant-pe-platforma-sandy-bridge-tutorial-video/
19.数据科学家访谈录在18个月的努力学习过后,他们跑遍各地并寻访了全球的诸位顶尖数据科学家,探询了他们的观点、意见和指导。本书就是这些访谈的最终成果,将最出类拔萃的一群数据科学家的100小时以上的智慧汇集整理成册(想象一下你去和奥巴马总统都要抢时间与之交谈的DJ Patil对话)。 https://www.epubit.com/bookDetails?id=N4623