2020年,5月的时候,全球新冠确诊病例快要临近300万这个关键节点之际,一场有哈佛、武大等顶尖学府专家参与的系列讲座,静悄悄地在网络上上线了。这并非日常那种普通的学术报告,而是全球科学家首次借助云平台来一起合作攻克疫情数据,他们打算运用数字建模的办法,在病毒传播的路径方面争取出时间。
数据是抗疫的第一道疫苗
在5月1日首讲当中,武汉大学朱欣焰团队跟邵远征团队,直面了最为棘手的难题,那就是疫情数据要怎么去收集,又要怎么去整理。那时国内各个医院以及疾控中心的数据格式各种各样,既有纸质报表,又有Excel表格。他们所开发出来的数据集成工具,能够将分散于疫情报告、人口流动记录、医疗资源清单里的信息,统一进行清洗,还要编码。后来湖北多地的疾控中心采用了这套方法,使得散落的信息真正发挥了作用。
5月8日,中国数据研究所的鲍曙明在讲座这件事上做了件实在的事情,什么事情呢?他把中美两国的疫情公开数据并排放在了地图上。使得观众第一次直观地看到了这样的情况,什么情况呢?美国东海岸的感染曲线和中国同期数据拥有表现完全不一样的波动特征。并非单纯地去比较谁好谁坏,而是通过数据特征反过来推断防控措施的实际效果,以此给各国卫生部门提供量化的参考。
时空建模画出病毒轨迹
由哈佛大学的胡涛于5月15日所展示的工作流建模工具,将疫情分析从静态的统计转变成为动态的模拟,他引领团队把航班订座数据、手机信令位置信息以及社区核酸检测量这三类数据输入到模型之中,该系统能够自动推算出下一周潜在的传播热点区域,后来纽约州卫生署借鉴了这套逻辑,对移动检测点的布设位置做出了调整。
乔治梅森大学的杨超伟,开启了一场时空分析专题讲座,时间定在了5月29日,他将2020年春运期间的人口迁徙数据,直接输入了系统,屏幕上呈现出一条条流动的光带,清晰地显示出,武汉封城之后,仍有少量人群朝着周边六县市移动,这些地方后来确实出现了早期输入性病例,这并非是事后诸葛亮,而是验证了时空模型对于突发公共卫生事件的预警能力。
云平台把实验室搬到线上
信创天所给予的虚拟云技术,使得全球范围内的学者,无需去安装任何一款专业软件,仅需打开浏览器,便可对原本得依靠工作站予以支持的地理信息系统进行操作。安恒信息于后台所部署的防护体系,能够保证各个国家的疫情数据,在进行跨境传输期间,不会被截取或者篡改。微软中国的云资源为平台每日平均进行的3000多次的数据调用请求提供支撑,且全部都是免费开放的。
宋学坤于6月5日分享的风险预测模型来自密西根大学,该模型直接在这个云平台上运行,他将全美3142个县的疫情数据、ICU床位数量以及老龄化比例进行叠加分析,进而做出县级风险五色图,怀俄明州一个小镇的卫生官员通过平台下载了该模型,在输入本地数据后发现养老院风险被低估,于是提前两周实施了探视限制。
多元数据撕开认知盲区
在6月19日,来自武汉大学的秦昆呈现出了别具一格的、与众不同的分析视角。他并非仅仅着眼于确诊数字,而是针对百度搜索指数里“发烧”这一词语的频次波动、“咳嗽”这一词语的频次波动、微博打卡定位数据以及城市间物流车流量这三个维度的信息流展开相关性分析。其得出的结论令人诧异不已:当官方通报新增病例呈现下降态势的时候,某些区域的感冒类关键词搜索反倒出现了小规模的峰值,据此提示有可能存在漏检的情况。
6月26日,吴玉鸣--这位来自华东理工大学的人士,将经济学里的面板数据分析方法用以疫情研究,他调取了长三角27个城市一季度的规上工业增加值、用电量以及纳税申报数据,借助数学模型剥离出疫情所带来的真实经济冲击值。这一方式相比单纯比较GDP同比更为精准,嘉兴港区管委会依据他的分析对港口作业班次作出调整,进而减少货物积压损失。
国际合作跑出加速度
最特殊的参与者,是整个讲座系列里,那些没有上台发言的人。达特茅斯学院施迅教授主持每场讨论之际,评论区不断有越南语、葡萄牙语提问跳出。印尼大学公共卫生学院的讲师,通过平台下载武汉大学分享的社区防控数据集,直接将其用于雅加达的封控措施模拟。这并非单方面输出,巴西学者上传的贫民窟人口密度数据,后来被哈佛团队优化进了第三版预测模型。
实验云平台,至今留存着,2020年5月1日的原始数据备份。那些意大利医生,在凌晨三点还在上传医院床位信息,还有反复核对武汉社区排查数据的公卫学生,以及把纽约时报疫情文章转成结构化数据的志愿者——他们的工作痕迹,都被永久保存在这个全球性协作空间里。
提前布防下一场风暴
这场历经两个月之久的讲座,揭示出了一个残酷的现实情况,那就是当大流行病降临之际,没有任何一个国家的数据系统是处于准备好的状态的。然而参与项目的科学家们做了更为长远的事情,他们将方法论予以开源,把分析工具打包成为教学案例,把跨国协作机制撰写进白皮书。北京大学的沈体雁在主持最后一场讲座的时候总结道,这套组合团队响应模式,在未来应对任何新型传染病时都能够在72小时之内启动数据分析。
倘若你于当时身为公共卫生决策者,在听完这些讲座之后,你觉得自己所在的城市最为应当优先补足哪一类疫情数据呢?欢迎于评论区分享你的判断。



