身处疫情期间,医院与实验室里,疫情数据正处于停滞阶段,宛如正“沉睡”着,然而大众却心急如焚地巴望着模型能拯救生命。在病毒传播速度以小时作为计算单位不断推进的当下,数据共享环节却仍需按照周来进行审批,如此这般形成的时间差,其本身无疑就是公共卫生层面存在的最为严重的漏洞。
数据模型不能只会算命
新冠肺炎患者,从感染起始直至康复,其间存在众多变量,繁杂得犹如一团乱麻难以理清。存在这样的情况,有人年轻体壮,然而病情却极为危重,另一些人年长且有基础病症,反倒毫无症状表现。在2021年广州发生疫情的那段时间里,钟南山团队收集了5000多例本土病例的临床相应数据,在此之后发现,血氧饱和度、淋巴细胞比例等相关指标与病情的转归呈现出非线性关系。但是,这类分析大多仅仅停留在回顾性统计方面,缺少能够对个体病程进行预测的动态模型。
机器学习算法实际上早就能够处理这种复杂关系了。深圳有一家医疗AI公司,运用强化学习,对武汉金银潭医院的CT影像以及用药记录加以分析,而找到了三种之前未曾被留意到的愈后特征组合。然而问题在于,这类模型一旦训练完成,就被锁在了服务器里,当其他城市暴发疫情的时候,是无法直接进行调用的。
全球数据仓库卡在隐私这道坎
非洲好些国家的埃博拉病毒基因序列,被瑞士日内瓦大学医院留存保育着,南半球规模最大的流感患者数据库,归巴西奥斯瓦尔多·克鲁兹基金会所有。二零二零年四月之际,世界卫生组织推出了“数据共享平台”这一倡议。过了半年之后,仅仅收到十七个国家上传的完整数据集。并非是各个国家不踊跃积极,只是法律方面的障碍太过明确具体罢了。
欧盟的《通用数据保护条例》明确规定,患者的数据是不可以出境的,美国的《健康保险携带和责任法案》则要求,去识别化必须要达到专家评审的标准。印度理工学院的团队开发出了一套联邦学习框架,该模型是在本地进行训练的,并且只上传参数,然而在2022年于金奈进行测试的时候,仍然被当地的伦理委员会要求增加三层隐私审计层。
模型可信度需要实战检验
2020年2月,英国帝国理工学院有模型做出预测,预测显示英国倘若不进行封城将会有51万人死亡,就是这个数字直接促使首相转变策略。然而在同年7月,《自然》杂志发表文章指出,该模型所运用的中国早期病例数据存在确诊标准前后不一致的状况,这种状况致使病死率被高估了将近三倍。
验证模型并非是那种等到事情发生后才进行评判的事后诸葛亮行为。对于新加坡国立大学苏博图医学院的相关做法而言,是值得予以参考考量的:具体来说,他们选用韩国 2020 年 2 月大邱暴发的数据来训练模型,之后再对 2021 年 5 月新加坡本土疫情走势展开实时预测,其准确率达到了 82%。而像这种跨国实时对比的情况,是需要有协议来作为支撑保障的,新加坡和韩国为此花费了三个月的时间才艰难地走完两国卫生部的数据交换审批流程。
可信数据供应链还在搭建期
上海有一家三甲医院里的信息科主任,给我计算过一笔账目:急诊留观病历从手写录入变化到能够进行分析的数据,平均而言是需要72小时的。在这72小时的时间里面,也许会经过护士初步录入、医生进行修改、编码员开展分类这三道工序,并且每个环节都存在人工失误的风险。在2022年西安疫情的那段时期,该医院临时做出了部署自动语音录入系统的举措,将重症患者生命体征数据上传延迟从26小时降到了40分钟。
仅仅自动化并非能解决所有问题的万灵药。印度古尔冈有一家私立医院,在2021年第二波疫情期间启用了自动呼吸机数据采集功能,随后却发现,部分设备由于电压不稳定造成时间戳出现错乱情况,混入数据库的虚假数据占到了7%。事情发生后,追溯清洗所耗费的人力,比手动录入的人力还要多出三倍。
悲观与乐观都有依据
抱持悲观态度的并非仅仅只有政府官员,美国疾控中心在2023年的内部评估报告当中予以承认,其本国的医疗监测网络覆盖了全美3600家医院,可是数据格式却存在着87种方言版本,若要统一这些标准,国会起码需要三年的拨款周期。
体现乐观者的理由的内容是更为具体的,爱沙尼亚自2019年起着手搭建全民基因组数据库,当下已将该国15万居民的基因型以及电子病历予以整合,在疫情期间此平台被紧急运用来筛选重症高风险人群,其准确率为91%,该国卫生信息局局长于2024年世界卫生大会上表明,他们乐意把数据架构进行开源,出现了六个国家正在对适配方案展开评估的情况。
破局点可能在工具箱层面
全球传染病防控数据协作组织,于2023年5月发布了《可复制医疗数据共享框架》,该框架把隐私保护、数据格式、模型验证标准,打包成了一套可勾选的模块,然而技术并非最大障碍,协议才是,巴西和肯尼亚已签署采纳,日本厚生劳动省正审议准备将其纳入《次世代医疗基础法》修订案。
2024年,中国医学科学院启动了“长城数据沙盒”计划,于海南博鳌乐城试点跨境医疗数据流动,阿斯利康和默沙东作为首批入驻者,可在沙盒内利用欧洲患者数据训练针对中国人群的肺癌模型,其条件为模型参数对所有签约方开放,这种等价交换的思路,或许相较于空谈全球协作而言更为现实。
假设你身处的城市医院,要是碰到新型呼吸道传染病这种情况,你认为当下的信息系统得耗费几天时间才能够给出精准的病例分布热力图呢?你乐意将这个答案发送到评论区,从而让更多的人目睹到数据基础设施的真切差距吗?




