广告
  • 加载指标

改变人类流感H3在抗原选择压力变化

改变人类流感H3在抗原选择压力变化

  • 本杰明·Blackburne
  • 艾伦•j .干草
  • 理查德·a·戈尔茨坦
公共科学图书馆
x

文摘

流感病毒的快速进化了困难保持疫苗的最佳效率。氨基酸替换导致抗原漂移,一个过程,一个病毒抗血清在反应减少了有效防范未来的病毒。有趣的是,尽管氨基酸替换发生在一个相对恒定速率,H3的抗原特性不连续,步进式的方式。目前尚不清楚为什么这不时发生进化,这是否代表只是一些替换影响这些属性比其他,或者如果这是指示性的改变病毒和宿主之间的关系。此外,糖基化的改变的作用这些转变的血凝素抗原性质是未知的。我们分析了抗原漂移的HA1人类流感H3使用模型的序列变化,允许选择压力的变化在不同的位置序列,以及在种系发生树的不同部分。我们在选择压力检测重大变化发生重大变化中优先抗原性质。尽管大幅增加糖基化在过去40年,糖基化的变化没有显著关联与抗原性质的变化或更多的选择压力快速变化。的位置进行选择压力的变化主要是在发生适应性进化的地方,在抗原的位置,位置或附近地区进行替换的特征改变病毒的抗原性。我们的研究结果表明,病毒宿主的关系随着时间的变化,与抗原的变化属性表示这种关系的变化。 This suggests that the virus and host immune system are evolving different methods to counter each other. While we are able to characterise the rapid increase in glycosylation of the haemagglutinin during time in human influenza H3, an increase not present in influenza in birds, this increase seems unrelated to the observed changes in antigenic properties.

作者总结

H3N2-type流感负责广泛的疾病,死亡率具有重要意义。病毒的迅速发展,改变其抗原的特性,让它逃脱间隙的免疫反应以及复杂的疫苗有效性的维护。这个进化的一部分被糖基化的快速增加,增加不是观察到H9进化鸟类或H1在人类进化。已经观察到的抗原特性变化打断,不连续的方式。这可能是由于一些突变是比别人更重要,或者它可能意味着抗原变化对应调整病毒和宿主之间的敌对的关系。通过研究序列进化的H3血凝素,我们可以证明选择压力作用于病毒蛋白质的变化随着时间的推移,这些改变在抗原性质的变化尤其快速。这表明抗原改变宿主关系对应修改。令人惊讶的是,无论是选择压力的变化还是抗原性质的变化对应于糖基化的变化。

介绍

流感病毒的快速发展带来了困难在识别和预测当前和未来的流行病学的威胁。信息的主要来源之一,未来可能的流感的威胁是其历史的研究作为一个进化的病原体。分析病毒进化如何逃避免疫应答可以提供洞察免疫系统如何处理该病毒在过去以及病毒可能会改变在未来如何逃避消除。

造型的流感演化都集中在血凝素(HA),病毒的表面膜结合糖蛋白现在负责受体结合和膜融合。16公顷不同亚型在流感已确定(H1 H16)的H1和H3目前在人群中传播。膜发生融合,HA前体(HA0)必须裂解成两个多肽,哈哈1和哈2,一个二硫化物键。五个标准抗原网站已确定哈1多肽的H3[1],[2]。因为哈1抗体介入豁免权的主要目标[3],它有一个氨基酸替换率高于哈2[4]

序列的进化公顷1结果抗原漂移作为抗原特性随时间变化。氨基酸替换导致改变抗体中和病毒的能力,通过干扰抗体绑定或改变一些相关的属性(如。受体结合),所以抗血清在回应一个病毒减少了对未来的有效性[4]。减少的数量可以用作衡量两种病毒的抗原特性之间的区别。有趣的是,H3的抗原特性不连续,步进式的方式[5]。2到5年的时间,哈哈1序列进化病毒抗体的相互作用的影响有限,所以抗原漂移仅限于semi-well-defined群序列变异与抗原性质相似,被称为一个抗原集群。然而,周期性的序列变化导致的抗原特性发生显著变化,对应于一个跳转到一个新的抗原集群。相关遗传距离与抗原之间的距离根本不能解释为一个线性关系[5]

有两种可能,而不是互斥的解释这些不规则,不时更改。首先,它将会在不同的位置,这些变化将对抗原的特性有不同的影响,什么被描述为“有影响力的网站的抗原变化的模型[6]。序列中的一些变化将导致微不足道的抗原特性的变化,而其他变化,附近的抗原结合位点,将是更重要的。常数的变化率序列将导致不时抗原性质的变化如果相对较少的位置有一个对这些属性非常大的影响[3]。(由史密斯和同事,在数据分析抗原簇之间跳跃的结果从一个氨基酸替换[5])。

其次,它可能是每个抗原集群代表一个特定的病毒和宿主之间的相互作用,如自然或抗体绑定的位置。在一些地点,氨基酸的变化会导致抗原簇之间跳跃,表示这种关系的变化。因此,随后的氨基酸变化的影响在其他地方可能显著不同。特别是Koelle等人最近进行一个模拟的影响这样的上下文相关的互动演化动力学的流感,表明它可以重新创建许多流行病学观察模式[6]

区分这两种可能性的一种方法是看改变的模式选择压力。如果集群抗原的变化对应修改病毒-宿主相互作用,我们希望有相应的选择压力的变化在不同的位置在病毒蛋白质。的相对和绝对的氨基酸替换率在这些位置将取决于当地选择压力的本质,我们可以观察到的变化模式的氨基酸替换。这些变化可以在整个替换率以及替换接受的本质。

这些间断抗原变化的一个可能的原因是血凝素的糖基化状态的变化。已经有大量增加的数量预测哈1糖基化的网站从1968年分离的病毒循环[3],[7]。似乎可能的这些糖基化网站代表了一种避免免疫反应的病毒通过总蛋白表面的变化。如果这些变化在糖基化相关抗原性质的变化,我们可能期望糖基化的变化之间的相关性,抗原的变化属性和选择压力的变化在不同地点的蛋白质。

除了构建系统发育树,进化理论也可以应用于广泛的通过假设检验问题。这些方法可以产生新的见解的力量进化形成的蛋白质序列,因此在结构、功能和蛋白质本身的生理环境[8]。序列变化的竞争模型可以应用于数据,从统计和信息理论和标准工具可以用来评估特定行为的证据。在本文中,我们感兴趣的是关于血凝素进化解决具体问题。选择压力的改变在进化过程中,在程度上或自然?是选择压力的变化与抗原的变化属性或糖基化的变化?

我们开发了一系列越来越复杂模型的进化公顷1人类的H3N2病毒,在每个阶段询问我们是否有统计的理由拒绝简单的模型。我们先从一个标准模型,所有位置上的氨基酸变化的速率是由一个替代模型矩阵,允许后整体置换率伽马分布的异质性。然后我们开发一个所谓的“混合模型”在不同位置的蛋白质可能遵循的一套替换矩阵,不同在整体置换率以及不同的各种氨基酸的倾向,但是,我们假设在任何位置替换率是恒定的进化过程。下一个模型允许替换率的变化在进化,对应选择压力的变化。因为我们的混合模型包括替换矩阵,有不同的偏爱不同的氨基酸,我们可以检测变化的性质不对应的选择压力的变化大小或标志。最后,我们考虑一个更复杂的模型,认为选择压力的改变可能优先发生在进化树的分支对应的抗原变化集群或糖基化的变化。

我们发现不同的置换矩阵描述蛋白质的不同区域,显示范围的选择压力。我们还发现,这些选择性压力随时间变化。更具体地说,选择压力的变化似乎并不发生在一个恒定速率在整个树。相反,选择压力的变化被发现更经常发生重大变化中抗原的性质。这表明抗原簇之间的运动,观察到在史密斯et al。[5]对应的变化病毒和宿主之间的相互作用的本质。的位置进行选择压力的变化主要是在积极地选择,或参照cluster-difference替换(被史密斯et al。),在规范的抗原位点的位置。令人惊讶的是,我们没有观察到显著相关性抗原特性和快速变化的变化预测HA糖基化状态。我们也不观察糖基化状态的变化在快速抗原性质的变化。这表明变化的糖基化不发挥主导作用的主要抗原性质的变化。

结果

序列的系统发育树构建了用于分析史密斯et al。[5],绘制示意图图S1。(详细的树可以从作者)。序列具有相似的抗原特性的各种集群批注的位置(香港,英国,维多利亚,德克萨斯、曼谷、新加坡、北京、武汉、悉尼、福建)和年最早的序列。派生的派生树类似于史密斯et al。[5]。相比他们的树,然而,我们已经从抗原转换集群EN72 VI75 TX77, VI75代表终端,以及转换从SI87 BE89和BE92 BE89代表终端。

然后我们的一系列不同的进化模型应用于这些数据,使用各种测试来量化统计支持增加了复杂性。中描述的那样方法小节,如果模型嵌套(即简单模型更复杂的模型的一个特例),我们可以用似然比检测来确定统计支持拒绝简单的模型。模型不是嵌套时,我们使用Akaike信息准则(AIC),对更复杂的模型基于可调参数的数量;最好的模型是最小化另类投资会议。

选择的模型和评价模型参数

我们开发了四个不同的进化模型。模型1,代表一个标准优化单一substitution-model Gamma-distributed率,适用于血凝素序列数据时,产生了一个对数似−4674.1,AIC = 10492。2。(参数的数量包括209模型参数和363可调分支长度。)然后,我们开发了一个混合模型(模型2),有许多不同的替换矩阵代表不同形式的选择压力,定义为一个整体置换率和不同相对倾向的各种氨基酸。模型2假定选择压力作用于每一个位置在整个进化过程与时间常数。置换矩阵的数量被AIC最小化优化。最佳的性能获得了混合模型有四个替换矩阵(271可调模型参数),实现了对数似值的-4339.2大幅降低AIC = 9946。4。这表明进化模型包括的不同形式的选择压力在不同的位置与数据的吻合程度明显好于一个置换矩阵的伽马分布率。

在进化过程中允许选择压力的变化(模式3)增加了对数似−4319.8。模型2(没有选择压力的变化)是嵌套在模型3中,这意味着我们可以用似然比检测证明额外的参数可以是合理的(P < 10−4)。然后,我们尝试一个更复杂的模型(模型4),抗原的分支,涉及改变集群有一个更大数量的选择压力的变化。这增加了一个额外的可调参数导致增加对数似−4311.8,表明这种额外的复杂性是合理的(P < 10−4似然比检验),增加抗原簇之间的选择压力变化率是显著的。我们可以拒绝零假设,选择压力的变化是独立发生跳跃的抗原特性,支持一个模型,选择压力的变化是优先发生重合,这种跳跃。inter-cluster分支substitution-matrix变化的速率是γ= 0.77;即额外数量的替换矩阵(选择性压力)的变化相当于观察是什么如果分支长度相应抗原集群转换增长了这么多。

糖基化的变化

我们祖先进行重建,并预测糖基化状态的各种祖先节点。我们限制我们的分析上的糖基化网站的网站预测祖先节点的概率> 0.95。我们没有考虑改变终端的糖基化序列,因为这些可能代表有害突变,不能与选择压力的变化与我们的模型(如没有序列进化后观察终端序列),集群和独立于抗原的变化。

预测糖基化状态列表表S1。我们观察的数量急剧增加预测糖基化网站从6网站(HK68) 11 (FU02)所示图1。有趣的是,似乎没有糖基化和重大的变化之间的相关性抗原性质的变化,没有之间的过渡抗原簇对应于不同糖基化。相反,有些抗原簇包含不同的糖基化网站的多样性;WU95病毒,例如,包含7和10之间每个亚基糖基化的网站。这表明,糖基化的快速变化是相分离的主要抗原性质的变化。

缩略图
图1所示。糖基化网站的数量随时间的变化。

集群以阻止色素表示。厚的红线代表树的主干。内部节点日期是基于推断一个线性最小二乘估计适合收购的时间可用的序列。

https://doi.org/10.1371/journal.ppat.1000058.g001

我们确定了分支对应于糖基化的变化。然后,我们开发了一个替换模型(模型5)的分支涉及糖基化状态的变化受到额外数量的选择压力变化的影响。有一个最小日志可能性的变化,表明没有明显观察到对应改变糖基化和选择压力的变化,考虑到可用数据(P = 0.8)。我们发现没有证据表明,糖基化的变化对应于显著增加的概率选择压力的变化。

评价模型

结果后面将更详细地描述参考模型4,除非另有指定。

四个替换的氨基酸偏好矩阵表示的四类选择性压力表示图2。的分布类型的所描述的位置不同的替换矩阵所示图3一,而图3 b显示了在进化过程中替换矩阵变化的数量对应于各种类型的位置。在模型4,位置可以改变不同置换矩阵之间的进化过程。之间的平均变化率不同置换矩阵表表S2

缩略图
图2。四个置换矩阵的特征。

每个替换矩阵是由物理属性的维恩图由泰勒[43]。非disulfide-bonded半胱氨酸被排除在图,所有在HA1半胱氨酸二硫桥接。每个置换矩阵的特征是一个相对整体置换率和不同的倾向所代表的各种氨基酸平衡的频率。根据这些氨基酸在这个图是彩色平衡的频率与总体的平均水平。蓝色表示频率小于均值,红色氨基酸大。更强烈的颜色比例进一步[44]

https://doi.org/10.1371/journal.ppat.1000058.g002

缩略图
图3。)Log2-odds表示倾向的各种类型的位置在HA1上各种替换矩阵,表示给定的相对频率的log2替换矩阵的每个类型的随机位置除以预期。

Substitution-matrix作业平均超过所有的内部节点的系统发育树。8个不同类型的位置类型被认为是:抗原(抗原)受体结合位点(绑定),non-antigenic暴露不具约束力的网站(“表面”),埋葬地点(“埋”),网站的“cluster-difference”替换(史密斯et al . 2004年)(“差异”),和被积极选择的网站(' +选取')。替换矩阵substitution-matrix 1(横线),substitution-matrix 2(点画)substitution-matrix 3(对角线),substitution-matrix 4(交叉线)。地点是埋或暴露基于他们的访问是否侧链面积大于或小于10%的Ahmad计算等领域。[44]。被积极选择的网站是基于最大似然的分析[45];一直不那么重要的相关性观察当被积极选择网站被布什et al。[10]被使用。B) Log2-odds表示倾向的各种类型的位置为各种substitution-matrix数量的变化规律。置换矩阵的后验概率的变化在树计算为每个站点。(substitution-matrix变化的概率小于5%是被忽视的。)网站分为三个类别之一变化率的选择压力的数量变化发现:缓慢(白色,0 - 1的变化),中等(灰色,1 - 2更改),快速(黑色、> 2的变化)。箭在情节指log2-odds负无穷。

https://doi.org/10.1371/journal.ppat.1000058.g003

替换矩阵1和2,代表所有位置的34%和46%,分别是最慢的变化,相对氨基酸替代率(vk)分别为0.28和0.46。(替代利率正常化,这样平均替代率在所有网站1.0)的首选组氨基酸主要是替换矩阵1和2之间的互补,替换矩阵与一个有一个高于平均水平的疏水性与替换矩阵两个相比,尽管替换矩阵包含丰富的天冬酰胺和谷氨酸,而替换矩阵两种倾向于芳香残留。如同预料的,埋的序列变化所描述的位置是优先predominantly-hydrophobic替换矩阵,而暴露的地方不归类为受体结合或规范化抗原所描述的网站优先更亲水置换矩阵两种。

替换矩阵3和4,代表9%和11%位置的蛋白质,变化相对迅速,相对替代率vk等于2.93和3.90。替换矩阵三个偏向带正电氨基酸(精氨酸和赖氨酸),而替换矩阵四偏向小极性氨基酸。位置与标准抗原的抗原回应地址相关网站和位置的身份区分各种抗原集群[5]——主要是由这些矩阵描述,也更容易接受选择压力的变化。循环区域优先描述所替换矩阵四、暴露与线圈。受体结合位点也更可能对应于这些发展迅速替换矩阵,对应于高受体结合和规范抗原网站之间的重叠。也有可能防止抗体中和病毒的变化可能涉及直接调节受体结合特性,而不是抑制抗体绑定。

表1显示了网站在经历重大变化的蛋白质抗原簇之间的转换期间选择压力。5所示,大部分的变化发生在地点规范化抗原网站,但似乎并未有选择性压力变化在任何特定网站的优势。的一些地方发生选择性压力变化的对应位置cluster-difference氨基酸替换了史密斯和同事[5](K156Q替换WU95→SY97过渡,和H75Q SY97→FU02过渡),而其他cluster-difference替换(附近的选择压力发生变化如。位置附近157 G158E替换在EN72→VI75过渡)。有证据表明在选择压力变化在124位置在TX77→BK79过渡,与G124D cluster-difference替换发生在随后BK79→SI87过渡。然而,许多选择压力的变化发生在位置不直接与cluster-difference替换。血凝素必须满足功能需求。抗原性质的变化可能与调整的其他属性,如受体结合,它可以与选择压力的变化没有直接与抗原反应有关。最后,可能会有补偿由于变化,例如,一些替换热力学稳定性的影响。

缩略图
表1。最重要的选择压力的变化。位置有显著概率给定substitution-matrix变化的列表。

https://doi.org/10.1371/journal.ppat.1000058.t001

不同的位置替换替换矩阵,矩阵和变化与规范化抗原网站和那些决定是在积极的选择进行了说明S2的数据S3,分别。我们观察到的快速替换,替换矩阵的快速变化,暴露在中央“孔隙”顶部的蛋白质。这些位置也不确定是在积极的选择,在抗原的变化或改变属性,尽管它们位于和包围的地方。改变参与集群转换BE92→WU95和WU95→SY97所示S4数据S5,分别。

讨论

有证据表明在HA进化选择压力的变化。例如,狼等人最近观察到瞬态自适应脉冲的特点是积极的选择发生在epitopic地区[9]。在这些脉冲之间几乎没有证据表明积极的选择,和newly-emergent血统缓慢取代存在的血统。也有证据表明非暂时性选择压力的变化。例如,布什发现的18个位置的变化et al。在积极的选择从1983年到1997年[10]似乎与随后的演化轨迹[11]和抗原的变化特性[5]在这同一时期,这些变化在较长时间范围只有18个位置弱相关抗原性质的变化[5],[12]。序列变化和序列变异的研究表明抗原漂移变化涉及当地的地区,但该地区的位置变化的过渡转型[13]。所有这一切表明,流感病毒进化的积极的选择是一个特性,但位置接受积极的选择可能会改变和新抗原网站可能出现。

简介中所述,不时抗原的性质的变化可以解释如果对抗原性质不同的位置有不同的影响,和cluster-changes对应变化更为重要的位置。在这种情况下,选择压力可能依然相对稳定或改变的方式与抗原的变化不相关属性。另外,跳跃在抗原属性可能代表的变化机制的immune-avoidance病毒或抗体反应的变化。后一种选择最近流行病学模型模拟[6]。替换的大部分发生在集群内随着人口发展的一组序列具有相似的抗原特性。这些变化进展到一个或一组(罕见)突变导致跳转到一个新的抗原变异与更高的适应性。这个序列及其后代取代旧的集群,导致人口的崩溃到一个新的单一血统,经历了新一轮的多样化。我们的模型提供了第二种解释的证据,抗原簇对应变化关系之间的“军备竞赛”流感和免疫系统,导致重大的改变在蛋白质选择性压力在不同的位置。选择压力的变化非常迅速,对应的选择压力变化量会发生的一个分支长度0.7,而转换的分支长度在0.01到0.03的顺序:这代表了20 - 70倍增加的速度选择压力的变化。

符合这个模型中,选择压力的变化主要发生在规范化抗原网站。这些变化也发生在位置被不同的氨基酸不同抗原集群[5]。重要的是要注意,这些是不一定cluster-defining的变化,这些变化可能发生独立于任何抗原性质的变化。不过,网站之间有很强的相关性抗原簇之间发生这样的氨基酸变化和位置有相应的选择压力的变化。还有一个显著的趋势的选择压力的变化区域cluster-difference周围的变化。

有趣的是,我们不能检测到显著增加的速度替换矩阵变化在糖基化的变化。的很清楚S1的数据1,我们也观察糖基化和抗原的变化的变化之间没有相关性集群。没有一个cluster-changing转换涉及糖基化位点的改变;相反,许多单一抗原簇包含不同的HA与各种不同的糖基化状态。这个结果是令人惊讶的,因为实验证据表明,糖基化可以减少抗体绑定[2],[14]- - - - - -[17],但重要的是要注意在抗原性质会发生重大的改变在抗原集群。

类似的糖基化H9鸟类进化的变化的分析,认为代表一个病毒“瘀”的自然宿主,不展示任何显著增加糖基化状态(数据未显示)。同样,人类H1的糖基化状态不显示大幅增加,糖基化网站的数量波动约8至10亚基(数据没有显示)。大量的糖基化可能代表之间的平衡抗体屏蔽和其他要求,比如需要调节受体亲和力[18]- - - - - -[20],避免先天免疫反应;增加血凝素糖基化的结果减少由于病毒毒性对小鼠胶原凝集素的绑定[21]。减少绑定在人类流感病毒的这种机制可能会改变平衡朝着增加糖基化。另一个可能的解释是,glycosylation-induced抗原变化可能发生在雪貂人类不会被检测到,因此不会出现在史密斯的抗原性质分析等。它是已知的,例如,人类包含大量的抗体为半乳糖和雪貂相比[22]。目前尚不清楚这将如何解释缺乏糖基化之间的相关性变化和选择压力的变化。

我们注意,我们正在研究预测的变化,而不是观察,糖基化的状态。很可能大部分的这些位置,事实上糖化。血凝素的晶体结构H3N2爱知/ 2/1968 (PDB指定5 hmg)预计每单元有六个糖基化网站,四是观察到的结构[23];剩下的两个可能已经失去了通过蛋白质表达、纯化、结晶。此外,我们认为它可能的错误预测负责之间缺乏相关性抗原变化和糖基化变化,因为没有理由相信,有相当数量的糖基化网站预测,改变他们的入住率在集群抗原的变化虽然没有改变他们的预测状态的网站。同样,很难想象这是一个未被发现的这些预测入住率的变化之间的相关性网站对应增加的变化选择压力时没有这样的相关性是观察到的变化预测网站。

我们发现强烈支持的模型中,优先选择压力变化在抗原簇之间的转换。这表明,进化的人类H3由氨基酸变化的时期根据一组相对稳定的规则,点缀着时间的规则变化改变。这些问题有重要的影响可预测性抗原漂移。如果蛋白质的选择性压力在不同的位置相对不变,我们可以直接推断未来的变化从过去的变化,一个假设明确在之前的分析[11]。然而,如果抗原性质的变化与病毒抗体系统相互作用的变化,我们可能要改变这种关系模型为了执行合理的推断,作为重要的序列变化在一个时间间隔内的抗原漂移可能不是一样的在其他间隔很重要。除了造型氨基酸在时间如何变化,我们也需要开发模型的选择压力的变化。这些结果还表明,规范“抗原网站”的概念可能过于简单。似乎有广泛的不同的位置有不同的倾向对抗体识别,而具体的血凝素位置所以目标可能随时间而变化。如果是这样,抗原和non-antigenic网站之间的区别可能是微妙和时间。

方法

进化模型

如上所述,我们开发的一系列越来越复杂的模型。每增加复杂性,如果合理的数据,展示了一个简化的假设,可以拒绝,提供增加了解流感病毒的进化过程的性质。

早期简单的进化模型,假设所有位置上的替换率在所有蛋白质都遵循了同样的替换矩阵,逐步补充了混合模型,允许差异绝对替代率[24],相对替代率在不同的位置[25]- - - - - -[28],在不同的时间和不同的替代率[29],[30]。每个组件的混合模型,由不同的替换矩阵,反映了一个不同的学位或形式的选择压力。在最简单的模型(如Gamma-distributed率类),我们可以考虑不同的组件有不同大小的选择压力,导致不同的绝对替代率。在这里混合物模型考虑,我们允许不同的选择压力的大小以及不同的偏好不同类型的位置为各种氨基酸。例如,一个组件可能模型里面的蛋白质,所以偏向疏水性氨基酸。

各种模型中描述的细节协议S1。(标准进化建模方法的概述,明白了如。[31])。模型1是一个标准的单替换矩阵Gamma-distributed率变化[24]。在模型2中,我们考虑到不同位置的蛋白质,或“分配”,一个不同的可能的替换矩阵[25]- - - - - -[28]。最初我们不知道哪个网站属于哪个替换矩阵。相反,每个替换矩阵k有一个指定的先天的概率P(k)代表任何特定网站的蛋白质。(所有网站都必须属于某个替换矩阵,)。不同的置换矩阵的特点是整体ν替换率k,20多种氨基酸的相对频率{π我,k},对称率参数矩阵年代我,我(年代我,我=年代j,我)优化在整个数据集,是相同的所有替换矩阵。整个替换利率正常化。模型3包括速率替换矩阵描述任何给定的位置可以改变到另一个在进化期间,代表蛋白质的选择压力的变化。替换矩阵模型的各种参数没有选择压力的变化是{年代ij,P(k),νk我,k}。允许替换矩阵的变化增加了{Z吉隆坡},一个新的对称矩阵(Zk, l=Zl, k)添加一个额外的Nk(Nk−1)/ 2参数Nk替换矩阵。

模型4和5考虑这种可能性,即选择性压力的变化率,即单个位置的变化从一个替换矩阵到另一个地方,可能取决于特定的分支树的,不同,例如,根据分支是否涉及抗原的变化属性(模式4)或糖基化状态(5)模型。在这些情况下,我们考虑的模型中,这些特定分支受到额外substitution-model矩阵只包括替换矩阵改变但没有额外的氨基酸的变化。我们可以使用似然比测试日志,看看结果改善可能性证明这些额外的参数。

数据和模型参数的调整

我们使用的数据集评估模型史密斯等人。[5]它包含254个人类H3哈1从1968年到2003年序列采样。一个禽流感H3序列(北海道/ 33/80 /帆布/ M16739)作为外群根树。序列从流感中提取序列数据库[32]。使用PHYML最大似然系谱树是派生的[33]WAG替代模型[34]和Gamma-distributed率[35]。树的不同部分被分配到不同的抗原史密斯集群的名称等[5]。这些抗原簇的上市以及在文本中使用的缩略语的传奇图1。系统发育树的计算后,模型的参数优化最大化对数似,使用软件可以从作者。

不同的概率替换矩阵和氨基酸在蛋白质中的每个位置为每个祖先状态计算使用标准的最大似然祖先的重建方法[36],[37]的概率,选择压力的变化。

祖先的糖基化是由寻找位置包含序列Asn-Xaa-Ser /刺与概率> 0.95。同源模型代表的ML祖先序列是由SwissModel[38]基于1 mqn结构[39]。当糖基化状态预测的GlyProt服务器[40],所有的潜在位置预测糖化。

模型的选择

我们常常面对的选择一个模型,产生不同程度的复杂性和适合的序列数据。相对的两个不同的模型量化的比率可能的概率(即观测数据将生成的模型),或者说,在对数似变化的大小。在某些情况下,这些模型是“嵌套”,也就是说,一个模型(A) (B)是一种受限制的模型,在这种情况下,我们可以利用似然比检验是否添加复杂性增加对数似是合理的[41]。我们不能用似然比检测评估non-nested模型的性能。相反,我们使用Akaike信息准则(AIC)[42],它被定义为AIC = 2Np−2Λ,Np是可调参数的数量和Λ对数似。首选的模型是将产生的AIC降到最低。根据这一标准,一个更复杂的模型仅仅是有道理的,因为它会导致增加日志可能性大于其他参数的数量。

支持信息

表S1。

的变化率替换矩阵。平均汇率substitution-matrix变化表示,鉴于

10.1371 / journal.ppat.1000058.s001

(59 KB的文档)

表S2。

糖基化的位置为各种抗原集群。+指的位置中糖化集群中所有祖先节点,而#表示一个糖基化的位置在某些节点的一部分。

10.1371 / journal.ppat.1000058.s002

(39 KB的文档)

图S1。

特征图1:种系发生树流感H3 HA1序列。地区树的颜色并将根据他们的抗原集群,定义在(史密斯et al . 2004年);标签代表的位置(香港(香港)、英国(EN),维多利亚(VI),德州(TX),曼谷(BK)、四川(SI)、北京(是)、武汉(吴),悉尼(SY)、福建(FU)),一年的第一个识别。糖基化是由红色线的变化。注意,没有变化的抗原簇对应于糖基化的变化。

10.1371 / journal.ppat.1000058.s003

气管无名动脉瘘管的(1763 KB)

图S2。

均值替换矩阵(a)和substitution-matrix数量变化(b)所示顶部和侧面的预测的filled-sphere表示1 mqn HA结构[1]。左)平均后验分布的替换矩阵树中的每个节点是用来为每个位置找到替换的分配矩阵。Substitution-matrix分配是由氨基酸表示颜色。前两个(慢)替换矩阵所示白色。Substitution-matrix三个绿色的,和四个红色的。作业是不确定的(即替换矩阵之间的后验概率分布)这是由混合适当的颜色表示。未建模的哈2链灰色所示。大胆的黑色线条围绕一种氨基酸表明位置存在于五个标准抗原网站之一。右)的总数substitution-matrix变化计算为每个位置在整个树和显示各氨基酸的一个适当的红色着色:从白色(没有变化)深红色(许多变化)。黑色线条围绕一种氨基酸表明位置是抗原。

10.1371 / journal.ppat.1000058.s004

气管无名动脉瘘管的(15204 KB)

图S3。

均值替换矩阵(左)和许多substitution-matrix mqn 1日变化(右)所示。配色方案是图S3。黑色线条预测表明,一个网站是积极的选择[2]。积极选择网站确定从一个数据集出版于1999年,然而从树中删除所有节点1998年之后有一个微不足道的影响意味着substitution-matrix或substitution-matrix变化的平均数。

10.1371 / journal.ppat.1000058.s005

气管无名动脉瘘管的(17045 KB)

图S4。

左)的substitution-matrix任务前的节点TX77→BK79过渡1 mqn绘制于HA结构。颜色一样图S3。中心)计算每个可能的概率的替换矩阵变化沿着分支对应于每个站点TX77→BK79。这些都是表示在1 mqn结构混合适当的颜色。绿色和红色显示的变化对替换矩阵分别为3和4。蓝色表示变化对替换矩阵1和2。白色的网站都是不变的。颜色显示的大小变化,强度和颜色混合如果不止一个改变正在发生。氨基酸贴上黑色边缘是指定为TX77 cluster-difference突变→BK79史密斯et al。[3]。右)替换矩阵作业后的节点TX77→BK79过渡。颜色如图4所示。

10.1371 / journal.ppat.1000058.s006

气管无名动脉瘘管的(13815 KB)

图S5。

左)的substitution-matrix任务前的节点WU95→SY97过渡1 mqn绘制于HA结构。颜色一样图S3。沿着WU95中心)替代之间的转换矩阵- > SY97过渡的颜色图S-5(中心)。后右)的substitution-matrix作业节点WU95→SY97过渡。氨基酸贴上黑色边缘是指定为cluster-difference突变为WU95 - > SY97史密斯[3]

10.1371 / journal.ppat.1000058.s007

气管无名动脉瘘管的(12925 KB)

协议S1。

方法:进化模型

10.1371 / journal.ppat.1000058.s008

(52 KB的文档)

确认

我们想感谢John Skehel有益的讨论。

作者的贡献

构思和设计实验:BB啊RG。进行实验:BB。分析了数据:BB。造成试剂/材料/分析工具:BB。该报写道:BB啊RG。

引用

  1. 1。威利D,威尔逊,Skehel J(1981)抗体结合的结构识别网站的香港流感病毒血凝素和他们的参与抗原变异。自然289:373 - 378。
  2. 2。Skehel JJ,史蒂文斯DJ,丹尼尔斯RS,道格拉斯·AR Knossow M, et al .(1984)碳水化合物侧链在香港流感病毒血凝素抑制单克隆抗体识别。81年《美国国家科学院刊年代:1779 - 1783。
  3. 3所示。Skehel JJ,威利DC(2000)受体结合和病毒膜融合条目:流感病毒血凝素。为69:531 - 569。
  4. 4所示。干草AJ,格雷戈里·V,道格拉斯AR,易建联PL(2001)人类流感病毒的进化。罗伊菲尔反式Soc Lond B 356: 1861 - 1870。
  5. 5。史密斯DJ, Lapedes,德容JC, Bestebroer TM, Rimmelzwaan GF, et al。(2004)流感病毒的抗原和遗传进化的映射。科学305:371 - 376。
  6. 6。Koelle K, Cobey年代,Grenfell B,帕斯卡M(2006)划时代的进化形状phylodynamics interpandemic甲型流感(H3N2)在人类身上。(见注释)。科学314:1898 - 1903。
  7. 7所示。陈H,邓G,李Z,田G,李Y, et al。(2004)的进化H5N1流感病毒在鸭在中国南部。101年《美国国家科学院刊年代:10452 - 10457。
  8. 8。Huelsenbeck JP, Rannala B(1997)系统方法来的年龄:测试假设在一个进化的环境。(见注释)。科学276:227 - 232。
  9. 9。狼,Viboud C,福尔摩斯EC, Koonin EV, Lipman DJ(2006)长间隔的停滞中时不时的积极的选择季节性甲型流感病毒的进化。生物学直接1:34。
  10. 10。布什RM,惠誉WM本德CA,考克斯新泽西(1999)积极选择H3人类流感病毒的血凝素基因a杂志另一个星球16:1457 - 1465。
  11. 11。布什RM,本德CA,苏巴拉奥K,考克斯新泽西,惠誉WM(1999)预测的进化人类流感a科学286:1921 - 1925。
  12. 12。李北京市,苏亚雷斯DL, Senne哒,苏亚雷斯DL(2004)的影响疫苗的使用在墨西哥血统H5N2禽流感病毒的进化。J微生物学报78:8372 - 8381。
  13. 13。普罗金JB, Dushoff J,莱文SA(2002)血凝素序列集群和甲型流感病毒的抗原进化。99年《美国国家科学院刊年代:6263 - 6268。
  14. 14。安倍Y, Takashita E, Sugawara K,松崎Y, Muraki Y, et al。(2004)效应的寡糖的生物活性和抗原性H3N2流感病毒血凝素。J微生物学报78:9605 - 9611。
  15. 15。卡顿AJ, Brownlee GG Yewdell JW,格哈德•W(1982)流感病毒的抗原结构/公关/ 8/34血凝素(H1亚型)。细胞31:417 - 427。
  16. 16。舒尔茨(1997)糖基化的影响在流感病毒血凝素的性质和功能。176年J感染说:增刊1 s24-28。
  17. 17所示。E,土屋Sugawara K, Hongo村年代,松崎Y, Muraki Y, et al。(2001)抗原的结构是人类流感A / H2N2病毒的血凝素。J创82:2475 - 2484。
  18. 18岁。D·可兰克高清,瓦格纳R,豪雅,沃尔夫T(2002)的重要性,流感病毒血凝素的生物功能糖基化。病毒Res 82: 73 - 75。
  19. 19所示。瓦格纳R,豪雅D,沃尔夫T,赫韦格,·可兰克高清(2002)N-Glycans附着在干细胞领域的血凝素有效控制甲型流感病毒复制。J创83:601 - 609。
  20. 20.瓦格纳R,沃尔夫T,赫韦格,Pleschka S·可兰克高清(2000)相互依存流感病毒血凝素糖基化和神经氨酸酶作为监管机构的增长:反向遗传学的研究。J微生物学报74:6316 - 6323。
  21. 21。Vigerust DJ, Ulett KB,博伊德KL,马德森J, Hawgood年代,et al。(2007) N-linked糖基化减弱H3N2流感病毒。J微生物学报81:8593 - 8600。
  22. 22。Galili U, Rachmilewitz EA,法勒Flechner我(1984)一个独特的自然人类免疫球蛋白与anti-alpha-galactosyl特异性抗体。J Exp 160: 1519 - 1531。
  23. 23。周G,费雷尔,Chopra R, Kapoor TM, Strassmaier T, et al。(2000) hiv - 1的结构特定细胞进入抑制剂与hiv - 1在复杂gp41三聚物的核心。地中海Bioorg化学8:2219 - 2227。
  24. 24。杨Z(1993)最大似然估计的发展史从DNA序列替换率在不同的网站。另一个星球杂志10:1396 - 1401。
  25. 25。Dimmic兆瓦,《DP, Goldstein RA(2000)建模进化可调式氨基酸的蛋白质水平的健身模式。Pac协会Biocomput ~ 29。
  26. 26岁。《DP Koshi JM, Goldstein RA(1997)超越变异矩阵:基于物理化学进化模型。:宫野年代,高木涉T,编辑。基因组信息学1997。东京:环球学院出版社。80 - 89页。
  27. 27。Koshi JM,《D, Goldstein RA(1999)使用基于物理化学突变模型在hiv - 1亚型的系统发育分析。摩尔生物另一个星球16:173 - 179。
  28. 28。Koshi JM, Goldstein RA(1998)数学模型的自然突变包括网站异质性。蛋白质32:289 - 295。
  29. 29。Galtier N(2001)最大似然covarion-like模型下系统发育分析。摩尔生物另一个星球18:866 - 873。
  30. 30.彭妮D, McComish BJ查尔斯顿,Hendy说医学博士(2001)数学优雅与生化现实主义:分子进化的covarion模型。J摩尔另一个星球53:711 - 723。
  31. 31日。杨Z(2006)计算分子进化。牛津:牛津大学出版社。
  32. 32。陆Macken C, H,古德曼J,柏金L(2001)数据库的价值在监测和疫苗的选择。考克斯:Osterhaus ADME, N,芬啊,编辑。选择的控制流感。阿姆斯特丹:爱思唯尔的科学。103 - 106页。
  33. 33。Guindon年代,Gascuel O(2003)一个简单、快速、准确的算法通过最大似然估计大的发展史。系统生物52:696 - 704。
  34. 34。惠兰年代,高盛N(2001)的一般经验模型蛋白质进化来自多个家庭使用最大似然方法摩尔生物另一个星球18:691 - 699。
  35. 35。杨Z(1994)最大似然估计从DNA序列与可变利率在网站:近似方法。J摩尔另一个星球39:306 - 314。
  36. 36。杨Z, Kumar年代,Nei M(1995)的一种新的推理方法祖先的核苷酸和氨基酸序列。遗传学141:1641 - 1650。
  37. 37岁。Koshi JM, Goldstein RA(1996)概率重建祖先的蛋白质序列。J摩尔另一个星球42:413 - 420。
  38. 38。Schwede T,科普J, Guex N, Peitsch MC(2003)瑞士模式:一个自动化的蛋白质homology-modeling服务器。核酸Res 31: 3381 - 3385。
  39. 39岁。快乐,快乐,威利,史蒂文斯DJ, Skehel JJ (2003) x射线结构潜在的血凝素H3禽流感祖1968香港的大流行性流感病毒。病毒学309:209 - 218。
  40. 40。Bohne-Lang, von der、连续波(2005)GlyProt:硅片糖基化的蛋白质。核酸Res 33: w214 - 219。
  41. 41岁。Felsenstein J(1981)从DNA序列进化树:最大似然方法。J摩尔另一个星球17:368 - 376。
  42. 42。Maeda Akaike T H(2000)一氧化氮和病毒感染。免疫学101:300 - 308。
  43. 43。泰勒WR(1986)保护氨基酸的分类。J理论的119:205 - 218。
  44. 44岁。Ahmad年代,Gromiha MM,撒莱(2003)实际价值从氨基酸序列预测溶剂的可访问性。蛋白质50:629 - 635。
  45. 45岁。杨Z(2000)最大似然估计在大型的发展史和分析自适应进化的人类流感病毒a . J摩尔另一个星球51:423 - 432。