新冠前沿——Science:使用计算机模型预测新冠变异株

2022-06-05 13:45

机器学习模型可以作为早期预警系统,帮助公共卫生系统为未来的 COVID-19流行做好准备。


从患者样本中分离出的感染 SARS-COV-2(黄色)的细胞(紫色)的彩色电子显微镜图像

麻省理工学院布罗德研究所、哈佛大学和马萨诸塞大学医学院的科学家开发了一种机器学习模型,可以分析数百万个 SARS-CoV-2 基因组,并预测哪些病毒变体可能占主导地位并导致 COVID-19 病例激增. 该模型被称为 PyR 0(发音为“pie-are-nought”),可以帮助研究人员确定病毒基因组的哪些部分不太可能发生突变,从而成为对抗未来变异株的疫苗的良好目标。


这一发现于今年5月24号发表在《Science》杂志上。


研究人员使用 2022 年 1 月GISAID数据库中 的 600 万个 SARS-CoV-2 基因组训练了机器学习模型。他们展示了他们的工具如何估计基因突变对病毒适应性的影响——包括病毒的复制能力和传染性。当该团队从 2022 年 1 月开始在病毒基因组数据上测试他们的模型时,它预测了 BA.2 变体的兴起,该变体于 2022 年 3 月在许多国家的新冠流行中成为主要变异株。在2020 年 11 月下旬,PyR 0也识别出了 alpha 变体(B.1.1.7 )


PyR 0基于名为Pyro(https://pyro.ai/)的机器学习框架,该框架最初由 Uber AI 实验室的一个团队开发。2020 年,该团队的三名成员开始将该框架应用于生物学。

相对适应度与谱系出现日期的关系 (Relative fitness versus date of lineage emergence)


研究者表示,这项工作是生物学家和遗传学家与软件工程师和计算机科学家一起合作的结果,使得他们能够解决公共卫生领域一些真正具有挑战性的问题,而这些问题没有单一的学科方法可以单独回答。


SARS-COV-2 的未来

自大流行初期以来,世界各地的研究人员一直在努力预测不同 SARS-CoV-2 病毒变体的适应性。但以前的模型无法同时比较所有变体,或者需要几天时间来处理几千个基因组。


相比之下,PyR 0可以在大约一个小时内分析数百万个基因组——包括所有公开可用的 SARS-CoV-2 数据。它通过将相似的序列组合在一起,然后通过它们共享的突变群来定义基因组的“集群”来做到这一点。通过关注可能出现在多个变体中的突变,PyR 0比关注病毒变异株的模型具有更强大的统计能力。


接下来,该模型确定哪些突变变得越来越普遍,并估计每种突变导致病毒传播的速度。它还可以根据基因组成估计不同变体的病例数量增加的速度有多快。

spike-ACE2复合物的结构

通过确定哪些突变对特定变异株的适应性很重要,该模型还提供了有关 COVID-19 如何传播和发展的生物学见解。例如,了解关键突变可以帮助科学家预测新变体是否更具传染性或疫苗对其无效。


早期预警

研究人员说,他们的研究表明,目前病毒适应性的提高源于病毒产生免疫逃逸的能力。公共卫生系统在提前警告变异的序列和特征后,可以实施具体措施来管理病例数。了解哪些突变有助于变异株的存活,可以帮助研究人员为未来的疫苗选择更好的目标。


这一基于大量数据的新方法,使得研究者能够实时了解病毒在世界各地不同地点的演变情况,这在以前的流行病中是不可能的。在1917 年,人们只知道他们是否得了流感,或者他们没有。现在,我们对数千种不同的 SARS-CoV-2 亚谱系有了非常精确的了解。