广告
  • 加载度量

全球迁移动态是人类甲型流感(H3N2)演变和持续的基础

  • 特雷弗贝德福德

    bedfordt@umich.edu

    隶属关系密歇根大学生态与进化生物学系,安娜堡,密歇根,美利坚合众国,霍华德休斯医学研究所,密歇根大学,安娜堡,密歇根,美利坚合众国

  • 莎拉·科比,

    隶属关系密歇根大学生态与进化生物学系,安娜堡,密歇根,美利坚合众国,霍华德休斯医学研究所,密歇根大学,安娜堡,密歇根,美利坚合众国

  • 彼得·比利,

    联系美国佛罗里达州塔拉哈西的佛罗里达州立大学科学计算系

  • 奔驰帕斯卡

    隶属关系密歇根大学生态与进化生物学系,安娜堡,密歇根,美利坚合众国,霍华德休斯医学研究所,密歇根大学,安娜堡,密歇根,美利坚合众国

全球迁移动态是人类甲型流感(H3N2)演变和持续的基础

  • 特雷弗·贝德福德,
  • 莎拉·科比,
  • 彼得·比利,
  • 奔驰帕斯卡
公共科学图书馆
x

摘要

流感病毒的全球迁移模式对该疾病的进化和流行病学动态有着深远的影响。我们开发了一种新的方法来重建人类甲型流感(H3N2)的遗传史1998年至2009年在全球范围内收集,并用其推断流感传播的全球网络。与之前的模型一致,我们发现中国和东南亚位于全球网络的中心。然而,我们还发现流感菌株在亚洲以外的地区多个季节循环,通过动态迁移持续存在在北部和南部地区之间。美国是温带传播的主要枢纽,与中国和东南亚一起构成了流感进化树的主干。这些发现表明,在中国和东南亚以外地区使用抗病毒药物可能导致长期的局部和潜在的全球抗病毒药物的进化l耐药性。我们的结果也可能有助于设计更适合不同地理区域的监测工作和疫苗。

作者总结

甲型流感病毒感染在温带地区表现出高度季节性模式。冬天是流感的季节。在秋季和冬季期间,最初的少数感染人数增长到人口的相当大比例。在冬季结束时,感染消失了。有人认为,发现每个温和流感季节的毒株来自中国和东南亚,在这些地区,甲型流感的季节性较弱。我们通过分析1998年至2009年间世界各地采集的病毒的基因序列来验证这一假设。研究发现,虽然中国和东南亚在移民网络中扮演着最大的角色,但温带地区,特别是美国,也做出了重要贡献。并不是所有的温和型流感都会随着冬季的结束而消失。相反,许多菌株迁移到气候条件更有利的地方。因此,我们发现流感传播模式是高度动态的。 Because of emigration out of temperate regions, mutations harbored by temperate strains of influenza A can spread to the global virus population. This means that regional public health decisions regarding influenza may have global impacts.

介绍

流感病毒每年在全球造成25万至50万人死亡,其中大部分死亡和发病是甲型流感造成的[1]. 流感集中在温带地区的秋季和冬季,但在热带地区的周期性传播较少。流感不是世界上任何特定地区的地方病,但似乎是动态持续的;一种地方性传染病将席卷一个特定的地区,逐渐消失,然后在第二年通过与另一地区的地方性传染病接触而重新播种[2][3].了解流感传播的地理结构对我们防治该疾病的努力至关重要。在这里,我们确定了以前未报道的季节性流感A (H3N2)病毒全球人群的遗传结构,并展示了这种结构是如何从全球传播网络的动态中产生的。而先前的假设提出了病毒进化的源汇模型,在这个模型中,东亚和东南亚(E-SE)的种群网络为温带地区的年度流行病提供了种子[3][4],我们发现流感病毒株经常在亚洲以外地区传播,并受到复杂的迁移动态的支持。这种持续性可能会对流感的演变产生长期影响。通过区域间的迁移,流感可能会持续一段时间,即使没有特定区域成为疾病的蓄水池。

后果

遗传多样性

甲型流感(H3N2)的遗传多样性受到高度限制,任何时候都存在少数独特的血凝素(HA)变异[5].我们发现,从1998年到2009年的4355个序列显示平均核苷酸多样性属于每个位置的替换(95%置信区间)在同生序列对之间,定义为相互间隔不超过30天的采样序列。这种核苷酸多样性水平大约是人类基因的15倍([6]然而,它明显低于从单个患者分离的HIV序列的核苷酸多样性(0.08)[7].尽管遗传多样性有限,但病毒的进化速度非常快每年每个位点的替换,导致每年基因的快速转换[4][8]

在大陆范围内,我们发现流感病毒有大量的地理种群结构。我们将流感样品分为7个区域:中国(包括中国大陆、香港、澳门和台湾)、欧洲、日本、大洋洲、南美洲、南洋。(包括柬埔寨、印度尼西亚、马来西亚、缅甸、菲律宾、新加坡、泰国和越南)和美国。这些地区是根据地理位置和采样密度选择的(表S1图S1图S2).平均而言,同时代序列之间的遗传多样性在区域之间更大,,而不是区域内,表S2)。这种区别通常量化为,等于[9]大于0表示区域间的遗传隔离,称为种群结构。在流感,为0.207(0.134,0.270)。作为比较,人类在大陆上的基因差异显示出来属于[10]

迁移率

为了解释病毒样本间的遗传关系,我们使用了一个基于结构化合并的群体遗传模型[11][12],它描述了连接繁殖群体成员的系谱模式。此模型明确包含采样日期[13]和采样区域[14]重建从进化群体中提取的样本的遗传历史。在此分析中,我们考虑了总体采样分辨率(图S1)以及时间抽样模式的差异(图S2),随机从现有的甲型流感(H3N2)序列中抽取100份亚样本。在每个重采样重复中,每个区域的序列数量是相同的。我们的迁移率估计值代表了这些重复的平均值。置信区间是通过比较复制池之间的估计得出的。

统计数字显示了流感病毒种群间结构的证据,来源于宿主种群接触网络的结构。我们的结构化合并分析更进一步,不仅揭示了种群结构,还揭示了流感病毒在区域间的迁移率(图1).迁移速率估计值在重新采样的重复中变化不大(表S3)这表明抽样细节对我们的合并结果几乎没有影响。为了支持全球集合种群模型,我们发现所有区域在某种程度上都是迁移网络中的来源。我们观察到频繁的基因从中国流入美国,也从美国流入中国。就整体移民率和网络中心性而言,中国、东南亚和美国对移民网络的贡献最大(表1图1).

缩略图
图1所示。根据2002-2008年期间的序列数据估计甲型流感(H3N2)的全球迁移模式。

箭头代表流感从一个区域向另一个区域的移动,箭头宽度与单一流感谱系的迁移率成正比。为了清晰起见,从图中删除了表示每个血统每年少于0.1次迁移事件的迁移率的箭头。圆形区域与区域的特征向量中心度成正比,该中心度是对迁移网络中节点重要性的度量。当追溯一个谱系的历史时,特征向量中心性等于预期的平稳分布[30]

https://doi.org/10.1371/journal.ppat.1000918.g001

缩略图
表1。根据每年每个谱系的迁移事件,对每个区域从所有其他区域迁移到所有其他区域的总迁移率和迁移到所有其他区域的总迁移率的平均值和重采样重复的95%置信区间进行测量。

https://doi.org/10.1371/journal.ppat.1000918.t001

估计的移民网络与地区间航空旅行的频率有很好的相关性(比较图1图1Hufnagel等人的。[15]).例如,南美洲在全球航空网络中相对孤立[15],尽管它与北美有着更为密切的联系。与这一细节相一致,我们发现流感迁移到南美洲的情况非常罕见,而且当流感发生时,它最常来自美国。此外,中国的流感最常迁移到日本和东南亚,而东南亚的流感最常迁移到中国和大洋洲。尽管如此,尽管世界通过旅游变得紧密相连,但流感似乎以足够快的速度席卷了当地人口,足以维持大陆范围内的巨大地理人口结构。

谱系学历史

通过对大量采样序列的进一步分析,重建了A型流感(H3N2)病毒群体的详细家谱历史(图2)。在这里,时间模式是最重要的。随时间分布的样本为这一目标提供了最多的信息。为了降低数据集的计算复杂性,同时保留最多的时间信息,我们通过每月从每个区域最多采集10个序列,将4355个序列修剪为2165个序列。S该程序减少了采样丰富区域的序列计数,而采样较差的区域基本保持不变(图S2).

缩略图
图2。1998年至2009年采集的2165株甲型流感(H3N2)病毒的系谱。

每个点表示采样的病毒序列,点的颜色表示采样的位置。样品上有明确的日期设在。用竖线示出病毒分离物的同期横截面。族谱被分类,因此留下更多后代的血统被放在更高的位置-轴比其他更不成功的血统。这种分类将树干沿着一条粗略的对角线排列,并将遗传上与树干更相似的谱系排列在更高的位置-显示的树是由软件程序Migrate v3.0.8中实现的马尔可夫链蒙特卡罗(MCMC)程序生成的最高后验树[14][20]

https://doi.org/10.1371/journal.ppat.1000918.g002

流感树具有长树干和短侧枝的特征形状[16][17],这是由于时间采样和快速合并的综合作用。回顾时间,两类事件发生:新血统被取样和现有血统合并。如果合并的速度比新血统取样的速度大,那么族谱就会显得细长,几乎没有同时代的血统。观察到的快速结合模式来自血凝素基因的免疫驱动的适应性进化[5][18][19]

区域间的接触产生迁移事件,我们将其描述为病毒谱系中的颜色变化(图2).该谱系表明,主要地理区域之间的迁移事件并不常见,因此病毒在区域之间没有很好的混合。一般来说,我们观察到在区域性流行病的过程中基因的多样性,在此之后,很少(如果有的话)世系继续存在。局部持久性在谱系中表现为多个季节出现在同一地区的分支。从流感树上可以清楚地看出,这种模式是罕见的,这表明在温带地区,流感谱系通常不会随季节而持续。

而普遍缺乏局部持久性与以前的结果是一致的[2][3],我们发现与之前的假设相反[3][4]温带地区的季节性流行病可能导致未来全球范围内的流行病。例如,我们发现1998-1999年的美国流行病导致了两个主要的流感谱系。其中第一个谱系以温带谱系的形式出现,主要在欧洲、大洋洲、南美洲和美国传播。这种谱系持续了多年年。第二个谱系是谱系主干的一部分;它从美国迁移到中国,从2000年持续到2003年。2003年后,这个谱系传播到世界其他地区。因此,我们发现全球的持续性得到了集合种群结构的帮助,在集合种群结构中,感染通过区域间的接触动态维持具有不同的季节性。

躯干重建

在任何特定时刻,都会有一种流感病毒株,通过自然选择和基因漂变,最终成为所有未来流感病毒株的祖先。回顾过去,这相当于所有当前流感病毒株在过去某个时候都有一个共同的祖先。这种祖先病毒株对流感谱系主干的反应(图2),也是与历史相关的进化发生的地方;只有沿着主干发生的突变才会无限期地保持下去,而沿着其他分支发生的突变最终会消失。尽管如此,分支的突变可能有重要的影响,即使是短暂的。与其他毒株相比,抗原新变异更有可能成为流感人群的祖先。然而,在世界上联系不紧密的地区(如南美洲)出现的小变异比在高度联系的地区(如美国)出现的变异传播的可能性更小。因此,即使在抗原漂移存在的情况下,我们预计迁移结构将在毒株最终接管流感种群中发挥作用。

我们的结构化合并方法明确地模拟了系谱主干随时间的位置,允许直接计算主干属于每个地理区域的比例(表2图3).与先前的预测一致[3]1998 - 2007年间,谱系主干主要分布在中国(34%)和东南亚(32%)。然而,树干的很大一部分位于美国(24%)。如前所述,靠近树梢的迁移模式支持中国、东南亚和美国作为源种群(图1).我们预计,作为来源种群,这些区域将占谱系主干的主导地位。这些结果表明,最后多年来,病毒种群发生了具有历史意义的进化,主要发生在中国、东南亚和美国。

缩略图
图3。对流感树树干随时间变化的地理位置的估计。

(A)流感树的主干在特定时间点存在于特定区域的概率。主干从空间和时间标记序列生成的采样系谱中获得。在每个时间点,一些采样系谱将有一个区域作为主干,而其他采样系谱将有一个dif不同的区域作为主干。此图封装了这种不确定性。在每个时间点,区域宽度代表以该区域为主干的样本系谱的0%到100%的平均比例。有时,当一种颜色主导-axis,我们可以相当肯定谱系的主干在这个位置。其他时候,当有颜色混合时,我们就不那么确定了。(B)对于每个采样的流感序列,到主干的距离,以年为单位测量。这里,点代表流感树的各个尖端,如图2.每个点的高度-axis表示在整个估计系谱范围内到树干的平均距离。条形图识别4个月时间窗口内最接近主干的样本。条形图是根据这些样本的区域着色的。

https://doi.org/10.1371/journal.ppat.1000918.g003

缩略图
表2。1998年至2007年间谱系主干位置的抽样族谱的平均值和95%可信区间。

https://doi.org/10.1371/journal.ppat.1000918.t002

讨论

我们已经表明,甲型流感(H3N2)的遗传群体结构部分源自全球迁移动态,最重要的贡献来自中国和东南亚,但亚洲以外的温带地区也有重要贡献(图1)。与流行的源库模型相比,我们发现了病毒从温带地区向热带地区大量迁移的证据,并且病毒谱系可能在亚洲以外的地区存在数个季节,通过不同季节性地区之间的动态迁移持续存在(图2)此外,我们发现中国、东南亚和美国都是流感谱系的主干(图3),因此在这些地区发生的变异已经塑造了全球流感人口。因此,过去10年H3N2流感的演变反映了全球准种群的动态,而不是局限于东亚和东南亚的准种群。

我们使用结构化合并模型来分析流感的演变,这比以前的技术向前迈进了一大步。由Russell等人构建的树。[3]使用系统发育方法,是HA系谱的单一估计。我们使用贝叶斯抽样技术分析大量与遗传数据一致的树木[20].更重要的是,我们的合并方法明确地包含了抽样日期、抽样地点和人口统计过程的底层模型。这些细节提供了更多的背景,从而允许更精确的重建。兰姆伯特等。[4]使用类似的贝叶斯合并方法;但是,他们的技术没有考虑到人口结构。

通过分析大量的抽样树,并通过重新抽样的重复,我们建立了我们的估计的不确定性程度。每个迁移速率都有一个与之相关的置信区间(表S3).此外,随着时间的推移,我们对主干位置的估计具有一定的可信度。我们的统计模型强烈表明,1998-1999年美国的流行形成了流感谱系的主干(图3A).与这一假设一致的是,我们观察到这一时期来自美国的样本在绝对意义上迅速结合到系谱主干中,而不仅仅是相对于其他样本(图3B).从2000年到2002年,中国的样本比美国和大洋洲的样本更接近树干,但在绝对值上不接近树干(图3B).正因为如此,关于谱系的主干是在中国还是在东南亚有相当大的不确定性(图3A)。这个特别的结果特别支持我们的方法,因为我们在2002年之前在东南亚缺乏样本(图S2),但我们仍然推断东南亚可能是谱系主干的组成部分。还有其他时间段(如2006年)样本远离主干,这表明主干可能位于样本区域之外。

不管方法上的差异和解释上的差异,我们的结果与Russell等人的结果是一致的。[3]和Rambaut等人。[4].在他们对树干平均距离的分析中,Russell等人发现美国落后于中国、台湾、香港和韩国,但领先于所有其他抽样国家,包括所有东南亚国家。这本身就表明,美国在全球移民动态中扮演着重要角色。此外,1998-1999年美国流行病作为谱系学主干的推论与Rambaut等人的发现是一致的。在仅由美国序列产生的系谱中(他们的补充图3e),可以清楚地看到,虽然大多数美国流行病是作为分支发生的,但1998-1999年的流行病是系谱学主干的明显一部分。Russell等人说:“在研究期间,这棵树确实显示了双向播种的证据,但没有证据表明非e&se亚洲毒株有助于病毒的长期进化。”我们认为,如果Russell等人分析了1998-1999年的样本,他们会得到不同的结果。

例如,美国对移民动态的贡献的某些力量是可能的(图1)它靠近中美洲热带地区。在这种情况下,基因在太平洋上的来回流动可归因于中美洲流行的流感菌株,这些菌株通过美国传播到世界其他地区。然而,如果这种情况是真的,我们可能预期中美洲的影响将扩大到除美国以外的南美洲;在研究区域中,南美洲对全球移民动态的贡献最小。

对于移民网络和系谱主干的适度贡献的其他证据来自流行病学模拟(见材料和方法).在对北方种群、热带种群和南方种群的宿主接触率相等的模拟中,我们观察到,尽管温带地区具有很强的季节性,但温带种群(表3).在这种情况下,我们发现,尽管谱系主干主要分布在热带地区,但在季节性流行病过程中,它经常通过温带地区的人口传播(图4).

缩略图
图4。对空间结构的源库模型(i)和等接触模型(ii)进行流行病学模拟分析。

(A)采样序列日期的直方图。在10年的时间里,按照丰度的比例,从模拟病毒种群的每个种群中随机取样500个序列。北方和南方的季节性反映在时间采样模式上。(B)从抽样序列推断谱系。每个点表示采样的病毒序列,点的颜色表示采样的位置。所示的谱系代表最高的后验树。(C)推测系谱主干随时间的位置。树干是通过在9年到10年之间的随机世系从谱系的后验样本中获得的,并在时间上追溯其祖先。主干位置的不确定性被这种方法捕获。当一种颜色占主导地位时-axis,我们可以相当肯定族谱的主干在这个位置。其他时候,当颜色混合时,我们就不那么确定了。

https://doi.org/10.1371/journal.ppat.1000918.g004

缩略图
表3。有效人口规模的平均估计值和95%可信区间迁移率以及每个区域的树干比例在模拟数据集中,该数据集是基于10年期间每个dem的500个样本。

https://doi.org/10.1371/journal.ppat.1000918.t003

研究流感谱系(图2),很明显,区域性疫情通常由极少数移民事件引起,这与以前的结果一致[2]例如,2003年大洋洲的流行病几乎完全是单系的,可以追溯到一次迁移事件(或者相同菌株的多次迁移事件)因此,即使在疫情高峰期有数以百万计的感染者,病毒的遗传多样性在疫情爆发之初也会受到限制[21].低迁移的瓶颈效应可能是流感中所观察到的遗传多样性受限模式的原因之一。我们观察到所有地区的有效人口规模相似(表S4),这与流行性流感从一个地区传播到另一个地区的假设相一致,这种情况不会持续下去。如果在东南亚(或其他地方)存在地方性流感的蓄水池,在世界其他地区反复传播流行病,那么东南亚血统的融合将不会受到同样程度的阻碍,在这种情况下,我们将在该区域观察到明显更深的聚结事件和相应更大的有效种群规模。然而,这并不是我们观察到的模式,它强化了一种观点,即即使在热带地区,流感的持久性也取决于集合种群结构[3][4]

流感病毒种群的全球动态影响着各种公共卫生决策。由于流感经常移出美国,在世界其他地区传播流行病,在美国采取的抗击该疾病的行动可能会产生全球影响。例如,在美国使用抗病毒药物可能会促进耐药菌株的进化,然后可能会传播到世界其他地方。相反,东亚以外地区的疫苗接种项目有可能遏制该疾病在全球的传播。此外,随着对流感迁移模式了解的增加,可能有可能为全球特定地区量身定制疫苗设计。例如,我们注意到南美洲的大多数流感源自美国。这表明在南美洲使用的疫苗应该优先从上一季的美国毒株中构建。

我们的研究表明,流感病毒的大部分历史相关进化发生在中国、东南亚和美国,全球其他地区发挥着重要作用,但作用相对较小。这一结论在某种程度上取决于病毒取样的有限时间和空间模式。世界上可能还有其他地区,如非洲、中美洲和印度,是全球流感移徙网络的重要来源。在世界范围内增加流感病毒的采样将进一步澄清该病毒复杂的迁移动态。

材料和方法

序列数据与多样性

从GenBank的流感病毒资源中下载了属于血凝素(HA)基因HA1域的序列[22]. 仅使用了至少900个碱基的非实验室菌株,这些菌株具有完全指定的日期(日、月、年)和原产国。我们的分析仅限于1998年至2009年的序列。我们将得到的4355个样本分为7个地理区域(图S1图S2).选择区域的目的是最大化地理差异,同时保持足够的样本,以作出准确的区域推断。使用MUSCLE v3.7在默认参数下对序列进行对齐[23].核苷酸多样性,以每个位点的替换量来衡量,以所有同时期序列对错配的平均比例来计算。只有样品日期相差在30天以内的序列才被认为是同时期的。为了避免对良好采样区域的偏倚,区域内的总体核苷酸多样性被估计为区域特定多样性估计的平均值:在哪里地区和指多样性估计,其中每对样本中的两个样本均来自该区域表S2).区域间的总体多样性以类似的方式估计:在哪里指一个样本来自地区的多样性估计值另一个样本来自地区.置信区间是通过从总序列池中取1000个bootstrap重复来估计的。我们警告说,我们对多样性的估计可能高估了,因为菌株通常首先以HI交叉反应为特征;然后优先对抗原新菌株进行测序。如果在每个区域对抗原新菌株的偏爱是相似的,那么我们可以预期的估计为了达到这个效果应该有同样的偏见。

迁移速率的联合估计

进化动力学估计采用贝叶斯马尔可夫链蒙特卡罗(MCMC)方法。MCMC通过随机游走来探索参数空间,收敛于模型参数的后验分布。使用合并推理程序BEAST v1.4.8中实现的MCMC技术估计跨位置共享的进化参数[24].在这里,树是按照单种群合并过程构建的,这在树的分支长度上施加了一个先验。我们使用的是HKY85模型[25]为了参数化突变过程,从观察到的核苷酸频率中提取平衡核苷酸频率,并且跨位点的进化速率保持不变估计为6.745(95%可信区间6.267-7.269)估计是每年每个站点的替换(每年每个站点的替换)。

这些突变参数在随后的分析中保持不变,以通过Migrate v3.0.8实现的类似MCMC技术估计每个地理区域的结合参数[14][20]这允许对多个区域进行联合分析。此后,我们将这些采样区域称为demes。Migrate估计参数哪里是deme的有效人口规模.我们测量以年为单位,而不是以代为单位,对应于我们的测量每年每个地点的替代量。因此,测量一个种群内的两个样本合并成一个单一谱系的预期年数。我们称之为德米的“合并的时间尺度”.优先分配假设为指数型,每个站点的平均替换率为0.1。迁移估计迁移率通过参数.迁移速率是从deme为同类群每个血统每年。的先验分布假设为指数型,平均迁移事件数为0.1。

为了证实抽样模式不会影响我们的结果,我们对100个重新抽样的重复进行了独立分析。对于每个重复,我们在2002年至2008年间将每个区域的样本数量限制在相同的范围内,在此期间,每个区域都有很好的代表性(图S2).南美洲在这段时间内只有61个样本,因此其他地区的样本数量也受到限制。在100个重新采样的重复中,迁移率估价值变化不大,这表明采样细节对我们的结果影响不大(表S3).

在我们的合并模型中,假设谱系间的选择中立,然而选择的大部分影响将被有效种群大小参数捕获[4].此外,假设有效人口规模和迁移率随时间保持不变。但是,鉴于流感具有很强的季节性[1]在美国,我们预计在一年的时间里迁徙和合并的速度会有所变化。通过假设合并和迁移的速率恒定,我们的估计掩盖了这种速率变化。尽管如此,值得注意的是,从美国到大洋洲的移民率相对较高,尽管它们的流行病动态很强。我们可能会认为,在南半球的夏季,流感在美国很常见,从美国迁移到大洋洲的事件应该很少见,因为季节性强迫应该会阻止新移民的血统在大洋洲获得立足点。此外,我们可能预计,从美国到大洋洲的大多数迁移发生在北半球的春季/南半球的秋季,此时的季节性和免疫水平对移民谱系最有利。更复杂的统计模型将有助于探索这种疾病的季节性迁移动态的细微差别。

对于100个引导复制中的每一个,50个MCMC链被运行一次每个步骤,每10000个步骤采样系谱和参数值将每条链的步骤作为“老化”移除。通过使用Gelman-Rubin收敛统计量对链之间的收敛性进行目视评估和比较。我们将每条链的剩余样本合并,为每个重采样的复制品提供总共5000个样本。

我们进行了一些额外的检查,以确认我们的结果对分析的细节是稳健的。我们不是从该地区进行同等的抽样,而是根据每个地区的人口比例进行抽样(表S5).我们在之前进行了大量分析,调整了迁移率。我们发现,使用更大的优先级,迁移网络中的变化更多,但连接的细节非常相似(表S6).更大的先验导致更大的美国贡献,表明我们选择较小的先验是保守的。我们还使用其他区域分组进行了一些分析,例如,将南美和中国分成两个区域:中国和香港(表S7).在所有情况下,我们仍然发现支持全球元人口模型,其中美国发挥了强大的作用。此外,各分析之间的相对迁移率相似。

然而,尽管我们尽了最大的努力来控制采样效果,但忽略的采样细节仍有可能影响我们的结果。随着全球监测和测序技术的进步,构建真正具有代表性的流感样本最终将变得易于处理。

系谱重建

为了重建家谱树,我们将4355条序列全部缩减为2165条序列,每个区域每月最多取10条序列。这使得分析在计算上更加可行,同时保留尽可能多的时间信息。该方法减少了来自美国、日本和大洋洲的样本数量,而其他地区仅受到轻微影响(表S1).在我们对这些序列的分析中,我们将迁移率和有效种群规模保持在先前重采样分析估计的水平上。

流感谱系的主干只能在回顾中确定。通过迁移采集的树木中的所有分支都标有它们所占据的deme。为了评估deme对主干的特定贡献,我们首先从谱系中提取主干。这是通过随机抽取2007年至2009年之间的样本并追踪其分布来完成的因此,每一个随机样本给出一个稍微不同的树干。在过去,所有的样本都与躯干有相同的谱系,而更接近当前的样本可能在它们认为是躯干的谱系中有所不同。通过分析家谱样本的树干,而不是JU来进一步确定不确定性。在所有取样树干上,我们计算了属于特定地理区域的每个树干比例的平均可信区间(表2).时间动态以类似的方式评估,计算在特定时间点属于特定地区的抽样系谱的比例(图3).树干提取和处理是使用PACT程序进行的,该程序可从作者的网站(http://www.trevorbedford.com/pact).

由于数据集更大,MCMC链的运行时间要比之前的分析长得多。经营了四家MCMC连锁店每一个步骤。第一个每条链的步骤都因老化而被移除。每一次都对系谱树进行了取样结合剩余的数据,留下4000棵家谱树的样本,在其中进行树干重建。

流行病学模拟

为了验证我们的方法,我们实施了一个随机、多毒株、多病种易感的感染恢复易感(SIRS)模型。三个宿主群体(北方、热带和南方)用来自甲型流感(H3N2)的流行病学参数进行了模拟在这里,我们将这些种群称为DEME。在这些模拟中,北部和南部受到季节性强迫,因此每年夏季感染都会消失。我们测试了两种生态情景。在源-库模型中,热带地区的受感染宿主可以接触北部和南部的宿主。北部和南部的受感染个体第二个模型是一个等接触模型,所有DEME之间发生双向迁移。我们认为,这里最重要的是模拟参数和我们对这些参数的估计之间的一致性,而不是模拟模型完美地反映了rea不切实际。

流行病学模型进行了50年的模拟运行,前40年作为“老化”被删除,以使遗传多样性和种群动态达到平衡。所有的流行病学和人口学参数,除了接触率,是相同的两个群落。每个群落的宿主种群大小保持不变人均出生率和死亡率为30岁的个人.菌株有固有的繁殖率2[26][27],平均感染时间为5天[28],平均豁免期为2年[29].北方和南方种群是季节性强迫的,使用振幅为0.4的正弦函数,因此从1.2到2.8不等。一个菌株被定义为一个1000个碱基的序列。突变率每年每个站点的替换量。在源汇模型中,热带地区向北方和热带地区向南方传播的人均概率是群落内传播率的0.005。在等接触模型中,每对demme的demme间传播率为demme内传播率的0.005。在每种情况下,这都转化为期望每年每个血统的迁移事件。

在这些参数下,热带地区的感染达到地方病平衡,而温带地区的感染则呈现季节性流行(图4)在热带地区,源库模型和等接触模型在任何一天的平均感染人数分别为248.8人和251.0人(表3).这是每个地区病毒种群的数量。代时间由感染持续时间给出,等于5天,即每年73代。

在模拟的最后10年中,从每个deme中抽取了500个序列(图4)。采样与区域人口的大小成比例,因此样本的时间分布反映了北方和南方的季节性。我们运行了Migrate v3.0.8[14][20]利用这些样本来评估deme特有的聚结和迁移率。在两个模型的模拟中,对热带地区有效种群规模的估计与真实种群规模一致(表3).由于随着时间的推移,人口普查规模的大幅波动,北方和南方的有效人口规模估计值低于普查平均人口规模(图4).估计的迁移率与模型中指定的接触率高度一致(表3).在真实接触率为0.365的情况下,估计接触率在0.37到0.39之间。在真实接触率为0.0的情况下,估计接触率从0.01到0.06不等。

由模拟数据重建的系谱树的整体外观(图4)与重建的流感家谱非常接近(图2)在源-库模型中,我们看到北部和南部的季节性流行病从未对主干产生病毒谱系,而在等接触模型中,季节性流行病有时导致热带地区的传播链,有时直接导致另一半球的下一个季节性流行病(图4).在这里,谱系主干的重建与我们的预期是一致的。在源汇模型中,系谱主干的位置估计总是位于热带地区(图4).这很直观地说明,由于不对称迁移,只有热带地区可能对模拟病毒种群的长期进化有贡献。在等接触模型中,主干的位置随时间动态变化(图4).虽然热带地区的贡献最大,但北方和南方有时都是谱系学的主干,因此塑造了长期的病毒进化。

为了进一步证实我们的联合推理方法对采样细节的鲁棒性,我们对源汇模型和等接触模型的模拟数据进行了额外的分析。在这项分析中,取样强度故意偏倚,从北方和南方取样了500个样本,但从热带地区取样的样本只有100个。该分析的结果与等采样强度的分析结果高度相似(表S8).

支持信息

图S1。

4355份甲型流感(H3N2)样本在来源国的分布情况。圆圈的颜色是根据我们的区域划分的。在进行任何重采样之前,圆面积与整个数据集的样本计数成比例。

https://doi.org/10.1371/journal.ppat.1000918.s001

(0.26MB PDF)

图S2。

4355个甲型流感(H3N2)样本在各区域的分布情况。每个垃圾桶代表一个月。样本计数是发生任何重采样之前的完整数据集。

https://doi.org/10.1371/journal.ppat.1000918.s002

(0.30 MB PDF)

表S1。

在分析的不同阶段,每个地理区域使用的序列数。

https://doi.org/10.1371/journal.ppat.1000918.s003

(0.03MB PDF)

表S2。

区域遗传多样性π排列在对角线以下,以10表示−3每个站点和区域的替换F排列在对角线上方,95%置信区间由1000个引导重复确定。

https://doi.org/10.1371/journal.ppat.1000918.s004

(0.09 MB PDF)

表S3。

根据每年每个血统的移民事件,对每对地区之间的移民(列)和移民(行)率进行估计。

https://doi.org/10.1371/journal.ppat.1000918.s005

(0.03MB PDF)

表S4。

假设世代重叠且传染期(世代时间)为5天,估计每个区域的合并时间尺度(以年为单位)和有效种群规模(以个体数量为单位)。

https://doi.org/10.1371/journal.ppat.1000918.s006

(0.04MB PDF)

表S5。

使用比例抽样估计移民(列)和移民(行)率之间的每对地区测量每个血统每年的迁移事件。

https://doi.org/10.1371/journal.ppat.1000918.s007

(0.03MB PDF)

表S6。

根据每年每个谱系的迁移事件,使用每对区域之间移民(列)和移民(行)率的1000倍大的先验值进行估计。

https://doi.org/10.1371/journal.ppat.1000918.s008

(0.03MB PDF)

表S7。

对每对区域之间的移民(列)和移民(行)率使用替代地理分组进行估计,以每年每个血统的移民事件衡量。

https://doi.org/10.1371/journal.ppat.1000918.s009

(0.03MB PDF)

表S8。

有效人口规模的平均估计值和95%可信区间Ne迁移率以及每个区域的树干比例,这些数据是基于10年期间来自北方的500个样本,来自南方的500个样本和来自热带的100个样本的模拟数据集。

https://doi.org/10.1371/journal.ppat.1000918.s010

(0.06MB PDF)

致谢

我们感谢埃文·伊克诺莫、亚伦·金和帕斯夸尔实验室的帮助。

作者的贡献

构思和设计实验:TB MP。进行实验:结核。分析数据:结核病。提供的试剂/材料/分析工具:TB SC PB。撰写论文:tbscpbmp。设计研究:结核分枝杆菌。开发统计和计算工具:TB SC PB。进行分析:结核。解释结果:TB SC PB MP。

工具书类

  1. 1.世界卫生组织(2009年)情况介绍第211号。流感URLhttp://www.who.int/mediacentre/factsheets/fs211/en/
  2. 2.Nelson MI, Simonsen L, Viboud C, Miller MA, Holmes EC(2007)系统发育分析揭示了季节性甲型流感病毒的全球迁移。公共科学图书馆:1220-1228。
  3. 3.Russell CA, Jones TC, Barr IG, Cox NJ, Garten RJ, et al.(2008)季节性流感A (H3N2)病毒的全球传播。科学320:340 - 346。
  4. 4.Rambaut A,Pybus OG,Nelson MI,Viboud C,Taubenberger JK等。(2008)人类甲型流感病毒的基因组和流行病学动力学,《自然》453:615-619。
  5. 5.Ferguson NM, Galvani AP, Bush RM(2003)流感进化的生态和免疫决定因素。自然422:428 - 433。
  6. 6.Cargill M, Altshuler D, Ireland J, Sklar P, Ardlie K, et al.(1999)人类基因编码区单核苷酸多态性特征。Nat Genet 22: 231-238。
  7. 7.Brown AJ(1997)对HIV-1 env基因序列的分析揭示了病毒群中有效数量低的证据。Proc Natl Acad Sci U S 94:1862–1865。
  8. 8.Nelson MI, Simonsen L, Viboud C, Miller MA, Taylor J, et al.(2006)随机过程是甲型流感病毒短期进化的关键决定因素。PLoS Pathog 2: e125。
  9. 9Hudson RR, Slatkin M, Maddison WP(1992)从DNA序列数据估计基因流水平。遗传学132:583 - 589。
  10. 10.(2005)大规模SNP分析揭示了人类遗传变异的聚集和连续模式。哼基因组学2:81-89。
  11. 11.金曼JFC(1982)。随机程序应用13:235-248。
  12. 12.Noothara M(1990)《地理结构人口中的结合和系谱过程》,数学生物学杂志29:59-75。
  13. 13.Drummond AJ, Nicholls GK, Rodrigo AG, Solomon W(2002)从时间间隔序列数据同时估计突变参数、群体历史和谱系。遗传学161:1307 - 1320。
  14. 14.关键词:迁移矩阵,最大似然估计,有效种群大小n使用合并方法得到的亚种群。美国科学院学报98:4563–4568。
  15. 15.Hufnagel L, Brockmann D, Geisel T(2004)全球化世界中流行病的预测和控制。美国国家科学学院学报101:15124-15129。
  16. 16Fitch WM, Bush RM, Bender CA, Cox NJ (1997) H(3) HA1型人类流感A型进化的长期趋势。
  17. 17Nelson MI,Holmes EC(2007)《流行性流感的演变》,《国家期刊》第8期:196-205页。
  18. 18Koelle K,Cobey S,Grenfell B,Pascual M(2006)划时代的进化塑造了人类大陆间流感A(H3N2)的系统动力学。科学314:1898–1903。
  19. 19Wolf YI, Viboud C, Holmes EC, Koonin EV, Lipman DJ(2006)在甲型流感病毒的季节性进化中,长时间的停滞被阳性选择爆发打断。Biol Direct 1:34。
  20. 20Beerli P(2006)群体遗传参数的贝叶斯和最大似然推断的比较。生物信息学22:341–345。
  21. 21Maruyama T,Kimura M(1980)当亚种群的局部灭绝和重新定居频繁时的遗传变异性和有效种群规模。Proc Natl Acad Sci U S A 77:6710–6714。
  22. 22.Bao Y, Bolotov P, Dernovoy D, Kiryutin B, Zaslavsky L, et al.(2008)国家生物技术信息中心流感病毒资源。J病毒82:596-601。
  23. 23.Edgar RC(2004)《肌肉:高精度和高通量的多序列比对》。核酸研究32:1792–1797。
  24. 24.Drummond AJ,Rambaut A(2007)《野兽:通过采样树进行的贝叶斯进化分析》。BMC进化生物学7:214。
  25. 25.Hasegawa M, Kishino H, Yano T(1985)通过线粒体dna的分子时钟确定人猿分裂的年代。中国科学:地球科学(英文版)
  26. 26.Gani R, Hughes H, Fleming D, Griffin T, Medlock J,等(2005)流感大流行期间使用抗病毒药物的潜在影响。新兴感染疾病11:1355-1362。
  27. 27.Cauchemez S, Valleron AJ, Boelle PY, Flahault A, Ferguson NM(2008)从Sentinel数据估计学校关闭对流感传播的影响。自然452:750 - 754。
  28. 28Carrat F,Vergu E,Ferguson NM,Lemaitre M,Cauchemez S等。(2008)人类流感感染和疾病的时间线:志愿者挑战研究的回顾。美国流行病学杂志167:775–785。
  29. 29Smith DJ,Lapedes AS,de Jong JC,Bestebroer TM,Rimmelzwaan GF等(2004)绘制流感病毒的抗原和遗传进化图。科学305:371-376。
  30. 30.Borgatti(2005)中心性与网络流。社交网络27:55-71。