疫情新闻里藏着防控密码?挖掘千万条报道后发现惊人规律
2020年初,武汉封城后的头两周,国内报纸有关疫情的报道量,激增了470%,这些海量新闻背后,实则隐藏着疫情发展的真实轨迹。经由对三年来近80万篇疫情相关新闻的文本分析,我们发觉,舆情热度总是比实际疫情高峰提前5到7天,这种预警效应,在2021年石家庄和2022年上海的疫情之中,都得到了验证。
新闻文本中的疫情密码
2020年1月至3月期间,被中国知网收录的地方报纸,每日平均发布疫情相关报道达3200篇,此数字为2019年同期各类公共卫生报道总量的15倍,这些报道分布于31个省份的276家报纸上,进而形成了庞大的舆情数据库。
我们对这些新闻的发布时间展开分析,从中发现,疫情舆情热度的波峰,和当地新增确诊病例高峰,存在着明显的时间差。就拿2021年7月南京疫情来说,当地报纸关于疫情的报道量,在7月24日达到顶峰,然而实际病例增长高峰,出现在7月29日,舆情预警时间差达到了5天。
语义增强让主题提取更精准
分析短文本时,传统BTM主题模型常常会将“核酸检测”与“抗体检测”这两个彼此密切关联但表述存在差异的概念,划分到不一样的主题之中。我们引入BERT模型之后,借助计算词向量相似度,成功辨认出这类语义近似的词对,进而使主题聚类的准确率提高了23%。
在二零二二年四月上海处于疫情期间之时,增强过后的BTM模型能够清晰地分辨出诸如“生活物资保障”、“方舱医院建设”、“核酸检测组织”等具体的主题。然而传统模型常常会把这些内容混杂到一起,致使主题的含义变得模糊而不清楚,以至于难以被用来作为实际决策的参考依据。
主题生命周期揭示舆情演变规律
照着新颖度以及支持度这两个维度,去划分每个新闻主题,我们察觉到,疫情相关主题一般都历经萌芽、爆发、成熟、衰退这四个阶段。2020年初之时,有着“口罩短缺”这样的主题,从出现开始,一直到消失,持续了47天。然而,2022年存有个“疫苗接种”主题,都已经持续了超过200天,可还在活跃着。
在2020年2月中旬的时候,“方舱医院”主题的新颖度,突然从0.3这个数值,跃升到了0.9,其支持度,也迅速地攀升起来。这种主题的爆发,往往对应着实际防疫措施的重大调整,这表明新闻舆情能够及时地反映政策的变化,还为评估政策传播效果,提供了量化指标。
词频变化映射防疫重心转移
2020年1月时,新闻高频词集中于 “不明原因”“传染性”“野生动物” 这个范围,到了3月份,就转变为 “复工”“健康码”“防护服” 这些词汇。这种词频的变化,直观地展现出疫情防控从应急响应过渡到常态化管理的整个进程,每个阶段的词汇都在诉说当时的防疫情况。
可从词云图瞧出,在二零二一年广州疫情那段时期,“核酸检测”与“疫苗接种”的词频差不多保持持平状态,然而在二零二二年成都疫情期间,“核酸检测”的词频在“疫苗接种”词频的五倍之上。这种差异背后是不同时间段防控策略的真实呈现,还为优化资源配置给予了参考。
主题演化揭示防疫经验教训
在对“核酸检测”这个主题展开追踪的过程中可以发现,此主题历经了这样的过程,先是处于“检测能力不足”的状况,而后转变到“全员检测组织”的阶段,接着又发展到“常态化检测点设置”的阶段,呈现出了一条完整的演化路径。在每个阶段所暴露出的那些问题,都是借助新闻媒体的报道才得以被反映出来的,并且借此推动了相关政策的优化以及完善。
2021年,郑州处于疫情期间,在“核酸检测”这个主题之下,出现了大量的报道,这些报道是关于排队时间过长,以及结果出具慢的情况。这些舆情所带来的压力,促使当地政府,在一周之内,增设了237个临时检测点,并且引入了预约系统。这表明,新闻舆情,不但是信息的载体,更是推动问题得以解决的重要力量。
舆情分析为政府提供决策参考
当基于主题的演化分析这件事情进行时,我们从中发现了这样一种情况,即当跟某个防疫措施相关的主题,在讨论量上边,连续三天增长的幅度超过百分之三十的时候,这种情况下往往就意味着,该措施在执行这个层面是遇到了问题的。在2022年西安疫情期间,出现的“买菜难”这个主题,它是符合这一规律的。要是能够在舆情爆发之前就进行介入的话,那么或许后续的舆论风波是可以避免的。
政府部门应被建议去构建舆情主题预警机制,着重去关注那些新颖度较高然而支持度较低的主题,这类主题常常是新冒出来的问题,尚未引发足够的重视,提前进行干预的成本是最低的,同时还要对那些支持度持续下降但关注度却不减少的主题保持警惕,这类问题或许已经形成了舆论方面的顽疾。
疫情期间,你可曾借由新闻报道察觉到某些问题被再三提及?欢迎于评论区分享你的观察,点赞并转发,以使更多人目睹舆情数据背后的价值。


