文摘
豹(蛋白质分析通过进化关系,http://pantherdb.org)是一种资源的进化和功能分类基因生物在生命之树。我们报告的改进我们的资源在过去两年。进化分类,我们增加了更多的原核和植物基因组基因的系统发育树,扩大在这些血统基因进化的表现。我们改进许多蛋白质家族的边界,与MEROPS对齐豹资源为蛋白酶和蛋白酶抑制剂的家庭。功能分类,我们开发了一个全新的豹GO-slim,包含在四倍许多基因本体术语我们之前GO-slim,以及策划协会的基因对这些条款。最后,我们取得了长足改进浓缩豹网站分析工具:用户现在可以分析超过900种不同的基因,使用更新的统计检验和错误发现率修正为多个测试。传播的测试也可作为一个web服务,方便第三方网站。
介绍
豹是一个全面的基因资源分类根据他们的进化历史,及其功能(1,2)。虽然豹的进化和功能分类是高度相关的,它们是不相同的。关系变得更大的进化关系日益密切。黑豹进化分类有三个级别,从最小到最具体的:蛋白质类,家庭,和亚科。蛋白质类包括同源组(蛋白激酶等的总科,由多个不同的家庭),和团体主要是类似的(比如“运输车”),但也可能包括同系物太可靠地建立序列同源性差异。每个蛋白质类通常是根据最常见的命名函数中观察到一个家庭,但是它可能包括成员共享一个进化历史的不同的功能。一个豹蛋白家族包含相关的基因彼此通过从一个共同祖先血统,建立了统计序列相似性,其序列能够可靠地对齐到一个多重序列比对。每超过15 000个家庭的黑豹,详细的家庭成员之间的关系表示的系统发育树显示家庭是如何进化的物种形成的过程,基因重复和水平转移(3)。每个内部分支点(节点)在种系发生树标签是根据类型的进化过程导致家族成员分道扬镳。这个家谱是蛋白质序列的重建家庭成员,使用计算推理管道已经详细描述(4,5)。进一步细分为每一个家庭树蛋白质亚科。因为基因重复创建功能多样性的重要性在一个家庭(6,7),黑豹定义亚科的基因重复事件。基因重复发生时(除了最近重复,导致额外的基因只有一个参考物种豹)创建一个新的亚科的复制与高分化蛋白序列。因此,基因在同一亚很可能共享功能基于他们共同的血统,几乎没有差异,尽管这些基因在不同物种。成对直接同源(双基因可以追溯到同一个基因在他们共同的祖先基因组)也决定直接从黑豹树。黑豹包括序列分析工具,根据进化分类(8,9)。用户可以浏览选择一个或多个基因组蛋白质类,使用豹小偷工具。他们可以分析系统发育树,和底层序列数据的形式(树)的多重序列比对用来推断与豹树查看器工具。用户可以上传一个新的蛋白质序列的网站,在那里比较统计学上(使用HMMER3软件(10))80∼000亚科表示为隐马尔可夫模型(摘要)(11),通过亚科分类(或家庭,如果它不足够密切匹配一个亚科)。
功能分类,黑豹利用基因本体论(去)(12,13)。豹采用基因本体在两种不同的方式,这是非常重要的用户理解它们之间的差异。首先,黑豹包括所有注释基因本体提供的联盟(可用http://geneontology.org)完整的基因本体(包括∼45000不同的函数计算)。这些注释集包括所有证据规范,标记“去完成”。第二,黑豹包括推断注释减少(“苗条”)分类,包括只有一个基因本体论的子集(包括655种不同函数在豹版本9.0到13.1,但在豹大幅扩大14.0如下所述)。这些注释标上“豹GO-slim集。这些推断注释产生通过注释的豹家谱,所以他们可以直接进化相关的分类。黑豹家谱的注释是由人工管理,在这一过程前面描述的(14)。简单地说,策展人审查所有实验中所有基因注释一个家庭,在种系发生树的上下文。然后选择最有益的方面去推断损益的每个函数(术语)祖先分支的树。祖先函数然后传播到后代序列,除了血统,他们用一个函数来注释被损失。这个过程具有明显的证据代码,IBA或祖先的推断从生物方面。因此,黑豹GO-slim注释仅代表的子集的注释选择内容管理(从可用实验注释)被认为是进化守恒的。使用这个过程,超过5000的豹树已标注日期。重要的是要注意,虽然将只属于一个给定的基因进化类,它可以有许多不同的术语,描述其功能的不同方面。它可能也没有已知或推断函数(函数非保密的)。像进化分类、功能不同的特异性,从一般条款(如激酶活性)更具体的术语(如酪氨酸蛋白激酶活性)。与进化分类不同,然而,一个给定的词往往会有多个父词汇,反映出多个“轴”的分类。功能分类和进化分类一般有复杂的关系。一般来说,一个给定的基因本体类可以包含来自不同的进化群体的基因(如亚科),但大多数的成员一个给定的亚科将与相同,或类似的,推断。除了去,黑豹还包括生物学途径中的功能分类,黑豹通路(15)和Reactome通路(16)。黑豹支持多种工具,用于分析基因功能分类,已详细描述(9)。用户可以上传一个基因列表从黑豹主页,和检索功能分类、可视化功能类作为一个交互式酒吧或饼图,或执行富集分析,发现统计上的函数,(或)表示在一个给定的基因列表。
在这里,我们描述的最新重大改进豹资源。两个方面的改进:豹核心数据,黑豹基因分析工具列表。在核心数据,我们增加了原核和植物基因组的家庭数量和系统发育树,和精制数以百计的蛋白质家族的界限。我们创造了一个全新的豹GO-slim和相关注释,并提高了豹蛋白质类蛋白酶和蛋白酶抑制剂的家庭。基因分析工具列表,我们已经开发出额外的软件允许用户轻松地从超过900个基因组分析列表(从104年的上次更新)。我们还实现了一个额外的统计检验方法(确切概率法)豹群体测试,以及Benjamini-Hochberg错误发现率为多个测试校正豹站点上的所有统计测试。群体测试工具也可以通过web服务,所以它可以很容易地添加到任何第三方网站。
黑豹核心数据的改进
更多的植物、动物和原核基因的系统发育树
自从我们上次更新文章,我们增加了28个参考基因组的进化树豹,几乎30%的增长。添加了新的基因组与另外两个合作项目:追求直接同源(QfO)联盟(17),Phylogenes项目(http://www.phylogenes.org/)。的新的基因组QfO协作(表1)增加主要是为了提高抽样的生命之树。添加了三个细菌archaeon,当然整体抽样的原核生物在豹真核生物相比仍然很低。的动物,我们添加了水蛭基底原肢类,红色面粉甲虫作为外群昆虫到现有的基因组,和雀鳝基底鳍刺类鱼,分化前teleost-specific全基因组重复。与Phylogenes项目合作,我们已经增加了两倍数量的植物基因组豹(图1)。大多数都是农业植物,但一个是基底开花植物(Arborella),另一个单细胞植物(Ostreococcus)。用户应该意识到这些多倍体植物基因组中,也可以出现在豹树最近基因重复事件。
原核生物 | 尿道支原体(尿道炎细菌) |
幽门螺杆菌(胃溃疡细菌) | |
脑膜炎奈瑟菌血清组b(脑膜炎球菌细菌) | |
Nitrosopumilus maritimus(海洋archaeon) | |
原肢类 | Helobdella罗布斯塔(水蛭) |
种有害castaneum(红色面粉甲虫) | |
脊椎动物 | Lepisosteus oculatus(发现雀鳝) |
Oryzias latipes(日本大米鱼) |
原核生物 | 尿道支原体(尿道炎细菌) |
幽门螺杆菌(胃溃疡细菌) | |
脑膜炎奈瑟菌血清组b(脑膜炎球菌细菌) | |
Nitrosopumilus maritimus(海洋archaeon) | |
原肢类 | Helobdella罗布斯塔(水蛭) |
种有害castaneum(红色面粉甲虫) | |
脊椎动物 | Lepisosteus oculatus(发现雀鳝) |
Oryzias latipes(日本大米鱼) |
原核生物 | 尿道支原体(尿道炎细菌) |
幽门螺杆菌(胃溃疡细菌) | |
脑膜炎奈瑟菌血清组b(脑膜炎球菌细菌) | |
Nitrosopumilus maritimus(海洋archaeon) | |
原肢类 | Helobdella罗布斯塔(水蛭) |
种有害castaneum(红色面粉甲虫) | |
脊椎动物 | Lepisosteus oculatus(发现雀鳝) |
Oryzias latipes(日本大米鱼) |
原核生物 | 尿道支原体(尿道炎细菌) |
幽门螺杆菌(胃溃疡细菌) | |
脑膜炎奈瑟菌血清组b(脑膜炎球菌细菌) | |
Nitrosopumilus maritimus(海洋archaeon) | |
原肢类 | Helobdella罗布斯塔(水蛭) |
种有害castaneum(红色面粉甲虫) | |
脊椎动物 | Lepisosteus oculatus(发现雀鳝) |
Oryzias latipes(日本大米鱼) |
改善家庭的界限
黑豹团队合作与运用Compara / TreeFam (18)团队在炼油家庭边界推断系统发育树。低质量的目标是识别家庭多重序列比对,在种系发生树推理关键取决于这些校准。低质量比对通常来自家庭中高度多样化的序列和/或结构域,和这些家庭将reclustered分成更小、更密切相关,序列的家庭。运用小组确定了黑豹的家庭,当用于收集从运用同源染色体基因预测和调整,可能导致低质量比对。具体来说,家庭被确定的决赛,要么削减运用对齐(i)包含很大一部分(> 50%)的家庭成员不保留“核心”对齐,对齐或(ii)核心对齐短(< 100列)和总排列长度至少4倍的核心。这个过程识别比对差的228个家庭。黑豹小组使用了两个其他条件来确定另外,过度多元化的家庭。我们确定了至少10%的成员的家庭每一个不到30列对齐(氨基酸网站)的多个对齐(98户),和家族树的情况下包含两个或两个以上不同的子树的inter-subtree对齐共享不到30氨基酸共同的网站(549户)。后者则表明两个或两个以上不同的(本质上重叠)家庭不正确合并在一起成一个家庭。结合家庭被这些标准导致的一组828个家庭(少于以来和给定的家庭可能会被一个以上的标准)。 These diverse families were subsequently reclustered using the standard PANTHER pipeline as described in (4,5黑豹14),到3026年新家庭。为最终用户最小化中断,对于每一个最初的828个家庭,前面的豹家庭标识符已forward-tracked新家庭最多的前成员。所有其他新的家庭得到新的家庭标识符。
新黑豹GO-slim,注释
从1998年开始,黑豹团队独立开发的基因功能分类(豹/ X),包括分子水平,和pathway-level类(1)。在2005年,我们修改了分子水平类成为黑豹蛋白质类本体,和转换功能分类基因本体论(去)条款(8)。因为我们只用一个小,选择的子集的术语中,我们称这些函数本体的豹GO-slims,每个去的三个方面:一个分子功能,生物过程,(从2007年)蜂窝组件。豹GO-slims已经多次修改,但这些变化相对较小。GO-slims豹摘要的注释,另一方面,定期更新和广泛。
在过去的两年里,我们已经做了一个完成修订黑豹GO-slims本身,和基因的注释这些本体。从2017年开始,所有遗留豹GO-slim注释取而代之的是提供的系统发育注释系统注释项目(14)。在这个项目中,一个专家biocurator评论所有experimentally-supported去注释蛋白质家族的所有成员,在豹系统发育树。biocurator然后选择最有益的注释和决定(根据其他序列的注释以及属性,有机体和进化等事件基因复制)的祖先分支进化树,给定术语(函数)是获得(和潜在随后失去了)。这允许函数序列的预测没有实验去注释,通过传播函数从祖先的后代。截至2018年10月,超过5500个家庭手工策划,使用8759不同的术语(表2)。然而,直到现在,这些条款已映射到更高级的条款在老豹GO-slim本体,含有少于700条款(< 2%计算)。
#不同的树枝注释与给定术语。 | 总数的不同术语。 | 蜂窝组件的条件。 | 分子功能方面。 | 生物过程方面。 |
---|---|---|---|---|
1 | 4741年 | 443年 | 1648年 | 2650年 |
2 - 4 | 2851年 | 427年 | 897年 | 1527年 |
5 - 10 | 822年 | 176年 | 197年 | 449年 |
11-50 | 314年 | 105年 | 93年 | 116年 |
51 - 100 | 18 | 9 | 6 | 3 |
> 100 | 13 | 11 | 1 | 1 |
总 | 8759年 | 1171年 | 2842年 | 4746年 |
#不同的树枝注释与给定术语。 | 总数的不同术语。 | 蜂窝组件的条件。 | 分子功能方面。 | 生物过程方面。 |
---|---|---|---|---|
1 | 4741年 | 443年 | 1648年 | 2650年 |
2 - 4 | 2851年 | 427年 | 897年 | 1527年 |
5 - 10 | 822年 | 176年 | 197年 | 449年 |
11-50 | 314年 | 105年 | 93年 | 116年 |
51 - 100 | 18 | 9 | 6 | 3 |
> 100 | 13 | 11 | 1 | 1 |
总 | 8759年 | 1171年 | 2842年 | 4746年 |
#不同的树枝注释与给定术语。 | 总数的不同术语。 | 蜂窝组件的条件。 | 分子功能方面。 | 生物过程方面。 |
---|---|---|---|---|
1 | 4741年 | 443年 | 1648年 | 2650年 |
2 - 4 | 2851年 | 427年 | 897年 | 1527年 |
5 - 10 | 822年 | 176年 | 197年 | 449年 |
11-50 | 314年 | 105年 | 93年 | 116年 |
51 - 100 | 18 | 9 | 6 | 3 |
> 100 | 13 | 11 | 1 | 1 |
总 | 8759年 | 1171年 | 2842年 | 4746年 |
#不同的树枝注释与给定术语。 | 总数的不同术语。 | 蜂窝组件的条件。 | 分子功能方面。 | 生物过程方面。 |
---|---|---|---|---|
1 | 4741年 | 443年 | 1648年 | 2650年 |
2 - 4 | 2851年 | 427年 | 897年 | 1527年 |
5 - 10 | 822年 | 176年 | 197年 | 449年 |
11-50 | 314年 | 105年 | 93年 | 116年 |
51 - 100 | 18 | 9 | 6 | 3 |
> 100 | 13 | 11 | 1 | 1 |
总 | 8759年 | 1171年 | 2842年 | 4746年 |
豹版本14,极大地扩展了豹GO-slims,专门为了更准确地代表这组8759去手动去系统发育过程中使用注释的过程。如上所述,这些术语是由专家审查在家庭的基础上,从一个更大的组可用的条款,因为他们被认为是信息的功能,并且在进化上是守恒的。构造一个新的豹GO-slim从这些方面,我们首先选择的条款被多次使用。具体地说,我们需要一个术语是用来注释超过五个不同的树枝(请注意,我们使用了本体关系计算不仅直接注释术语,但它更具体的后代,即遵循“is_a”和“part_of”关系图)。我们然后添加在任何条款的共同祖先(在完成图)两个或两个以上的条款获得第一步,确保所有条款可以通过关系追踪本体的根源。新黑豹GO-slim包含3040项,523 2005生物过程,分子功能和512细胞组件。本体可以从下载http://data.pantherdb.org/PANTHER14.0/ontology/panther_slim.obo。施工过程是全自动的,可以定期更新的系统注释项目收益。
符合MEROPS蛋白酶
黑豹旨在提供一个全面的分类编码蛋白质的基因家族。我们认识到,有许多目标,家庭或函数——特定的网络资源,精心策划,并可能通过豹传播。作为第一个例子,去年发表的(19),我们的MEROPS数据库肽酶(蛋白酶)和肽酶抑制剂。为了结合MEROPS,我们修改了豹蛋白对蛋白酶(图类层次结构2)来匹配MEROPS的上层阶级。然后我们与MEROPS团队合作,确保所有豹蛋白酶的家庭在MEROPS映射到家庭,并分配给正确的上层阶级。黑豹现在包括几乎所有病毒性MEROPS蛋白酶家庭。我们鼓励其他家庭或函数专用数据库的开发人员与我们联系,如果他们有兴趣将在豹分类信息。
黑豹基因列表分析工具的改进
分析超过800额外的基因组中没有豹树
黑豹家族从131年基因组(图构建系统发育树3),在此之前,网站上的黑豹分析工具只能应用于基因的系统发育树。全基因组测序和全基因组实验继续推进,越来越多的用户正在研究各种各样的其他基因。对于其他基因组的分析,我们一直提供可下载的软件准备文件,可以上传到豹进行分析。但是许多用户发现下载软件难以使用,特别是如果他们有有限的计算技术。因此,最常见的一个用户请求我们已经收到,是支持额外的基因组外的豹树。
为了解决这个问题,会同InterPro (20.)和UniProt参考蛋白质组(21),我们实现了一个解决方案来支持超过800个额外的基因组在黑豹的网站上。目前我们包括所有UniProt参考蛋白质组有超过4000个蛋白编码基因。我们取得了这些基因组的基因(UniProtKB标识符)提前对豹摘要,和豹数据库中存储的分类结果。用户只需要将他们的基因列表UniProtKB标识符,它可以无缝地在黑豹的网站(图分析4)。
新违约确切概率法,罗斯福修正多个测试
从2004年开始,黑豹网站举办了两个互动工具寻找类基因的基因丰富用户的输入基因列表,相对于“参考”基因列表(输入列表的选择)(8)。第一个工具,叫做“群体测试”,以输入列表(“参考”列表),并执行一个统计测试了,代表名额不足:是一个给定的(功能)类发现统计上更多(或更少)通常在输入列表中,比预期的机会吗?第二个工具,叫做“浓缩试验,”所化验所有基因的列表,在一个实验中,连同一个数值(如折叠表达水平的变化)和执行统计“基因集富集”测试:对于每一个类(功能),输入值是所有基因的分布相比,使用Mann-Whitney U测试。在早期版本的黑豹,群体测试和浓缩试验,P默认值调整使用Bonferroni调整为多个测试。
在过去的两年里,这些测试已经更新在以下方面(图5)。首先,群体测试现在使用确切概率法在默认情况下,而不是二项测试(即现在的工具假定默认超几何分布,更准确的对较小的基因列表)。第二,群体测试和浓缩测试现在使用Benjamini-Hochberg错误发现率(罗斯福)默认回调。Bonferroni调整是为多个独立设计测试,因为有很多class-subclass关系本体所使用的黑豹,这种修正过于保守。因此,使用Bonferroni调整可能掩盖生物重要的结果。罗斯福旨在控制的假阳性率统计测试结果,通常被认为是一个更好的选择,浓缩分析(也称为“路径分析”)。Bonferroni调整仍可以选择选项(图5),如果用户需要复制先前获得的结果,或者仅仅是与罗斯福的修正。
如何添加豹传播工具一个第三方网站
黑豹群体测试工具也可以通过一个应用程序编程接口(API)的访问。软件开发人员可以使用API来轻松地将工具集成到自己的(第三方)的网站。用户可以输入一个基因列表在第三方网站上,然后可以自动发送到豹传播工具通过API。传播的API返回统计测试结果有两种选择:要么可以格式化为XML在第三方网站上,或重定向到豹网站,可以查看和分析结果使用所有可用的工具已经在豹。
在过去的两年里,我们有新的选项添加到豹群体API为第三方网站提供额外的功能。API现在使用确切概率法与罗斯福校正在默认情况下,使用二项测试和Bonferroni可用选项。至关重要的是,该API现在支持指定的参考基因列表,除了基因列表来进行分析。详细介绍了可用的参数,以及示例代码,是可用的http://pantherdb.org/help/PANTHERhelp.jsp方法。
确认
作者要感谢的贡献系统注释策展人:马克•Feuermann迈克尔•Kesling Pascale Gaudet,凯伦·克里斯蒂李全。作者要感谢Mateus会长Patricio和马修Muffato豹家族的分析比对,和尼尔·罗林斯蛋白酶分类分析和指导。
资金
国家科学基金会(1458808);国家人类基因组研究所的美国国立卫生研究院(U41HG002273)。开放获取的资金费用:国立188滚球软件卫生研究院和美国国家科学基金会。
利益冲突声明。没有宣布。
评论