新冠肺炎疫情在短时间内快速席卷了全球,快速的传播、极高的发病率和死亡率给疾病防控带来了极大的挑战,面对未知的或新型的疾病,传统的手工防控手段已经很难满足快速发展的疾病需求,比如对未知肺炎患者病例增加的预警需要医生有良好的经验、意识及主动性等,再比如在治疗阶段,治疗方法和手段是否有效,是否可以快速形成经验并传递给所有医疗工作者,这些都是人工手段很难在短时间内实现的。而这些恰恰是大数据平台应该具备的能力,通过数据可以快速的针对未知肺炎的特征和发展趋势进行分析并提出警告,在治疗过程中,可以通过数据挖掘出最佳的治疗方案,并通过真实的数据验证治疗方案的有效性,从而对治疗方案进行优化等。要实现这样的能力,我们需要一个能将数据利用形成闭环的大数据平台,我们称之为大数据分析闭环。
我们以新冠肺炎患者危险评估为例,如下图所示:
大数据平台从医院的业务系统中获取患者的历史数据和临床数据,经过聚合服务将患者的数据进行标准化处理,并保存到标准化的数据湖中,然后机器学习或人工智能应用从标准化的数据湖中获取新冠肺炎患者相关的数据进行训练,形成风险评估模型,将该模型嵌入到聚合服务中,当有新的患者数据实时进入到大数据平台后,危险评估服务将对该患者进行风险评估,帮助医生快速分类,比如:无症状患者,轻症患者,重症患者,危重患者等,医生按照患者的分类提供不同的治疗手段,在这个过程中形成患者新的数据,比如用药、检查、化验以及患者症状等,这些新的数据同样会经过聚合服务对患者进行实时的危险评估,同时产生的新的数据经过标准化后进入标准化的数据湖,机器学习或人工智能应用获取这些新的特征数据对模型重新进行训练和优化,形成新的危险评估模型,新的模型同样会嵌入到患者服务中从而形成了患者危险评估的数据分析闭环。
从上述的数据分析闭环不难看出,一个医疗大数据平台应该具备下列几个重要特性:
1. 数据实时采集,传播速度快、疾病发展快是新冠肺炎的特点,传统的ETL或CDC的方案都会有一定的延时,根据ICD2017年的报告,将近有一半的公司在数据采集时大约平均5-7天的延时。而这样的延迟对于流行病学防控来说是不可接受的。一个好的大数据平台不仅仅能够批量采集历史数据或有一定延时的更新数据,同时也需要有能力实时捕获患者治疗过程中产生的关键事件和数据,从而对这些数据进行实时的分析和干预,实时评估患者风险,辅助医生做出及时及正确的决策
2. 数据标准化,当数据进入大数据平台后,需要对来自不同数据源的数据进行转换、整合及标准化,大数据不仅仅在大,更重要的是要有价值,而为了让数据有价值,需要对来自不同数据源的数据进行相应的处理,以保证来自不同的数据对相同概念保持相同的结构和语义,通过标准化的过程最终形成一个标准化的数据湖。
3. 聚合机器学习或人工智能模型,当数据已经保存着标准化的数据湖中后,机器学习或人工智能应用就可以从数据湖中获取相应的数据,并按照定义的模型进行训练,最终会生成一个可执行的机器学习或AI模型,而人工智能的目标不是为了生成模型,最重要的是可以应用到实际的业务流程中,对患者的治疗提供帮助,因此,一个大数据平台应该具备集成机器学习或人工智能模型并执行的能力,将这些能力转化为服务,辅助医生进行决策。
我们再回过头来看过去几年医院数据中心建设,大部分是为了实现宏观分析应用,比如商业智能分析、绩效考核、药占比等,这些分析不需要实时的与业务流程进行交互,但当我们的数据应用越来越深入到临床时,这些宏观分析很难满足临床的实际需求,同样为了宏观分析而建的大数据平台也就很难实现上述的数据分析闭环能力,当前的疫情对大数据平台提出了新的要求,这些要求也会推动着医疗大数据平台建设新的方向,而数据分析闭环能力将会在实际的临床应用中扮演重要角色。
(来源:数据观)