摘要

动机:宏基因组学是研究直接从环境样本中回收的遗传物质。宏基因组样本之间的分类和功能差异可以突出生态因素对广泛生境中微生物生活模式的影响。统计假设检验可以帮助我们从采样人工制品中区分生态影响,但知识仅限于P-来自统计假设检验的值不足以推断生物相关性。目前对比较宏基因组的报告实践是不充分的,需要更好的工具来进行比较宏基因组分析。

结果:我们开发了一个新的软件包STAMP,用于比较宏基因组学,支持分析和报告的最佳实践。对铁矿宏基因组的检查表明,使用我们软件中可用的统计技术可以获得更深入的生物学见解。的功能势分析Candidatus在两种增强型生物除磷宏基因组中,磷酸Accumulibacter鉴定出了几个不同于A.phosphatis这些相关群落的染色,包括磷酸盐代谢、分泌和金属运输。

可用性:Python源代码和二进制文件可从我们的网站免费获得http://kiwi.cs.dal.ca/Software/STAMP

联系人:beiko@cs.dal.ca

补充信息:补充数据可于生物信息学网上。

1介绍

宏基因组学(对从微生物群落中随机收集的DNA片段进行评估)专注于微生物的生态相关组合,揭示了微生物多样性和复杂性的新世界。宏基因组研究可以由几个目标驱动,包括发现感兴趣的新基因(Béjà,et al。2000;Yoosephet al。2007),代谢假说的验证(García Martínet al。2006;哈勒姆et al。2004;谅解备忘录et al。2008),分析微生物群落组成与环境或地理参数变化之间的关系(Dinsdaleet al。2008年,一个;莱伊et al。2006)以及评估和比较在一个或多个生境中发现的全球代谢补体(Brulcet al。2009;爱德华兹et al。2006;Tringeet al。2005;恩伯et al。2009)。社区的详细评估需要密集的测序工作和仔细的实验设计,以确保实验问题能够得到充分解决(Hamady和Knight,2009)。

宏基因组项目的一个常见结果是对收集和组装的DNA reads进行一组功能预测,通过同源搜索进行分配,并使用SEED (Overbeeket al。2005)或KEGG (Kanehisa)et al。2004)。当收集多个样本时,可以将功能类组织到列联表中,以便评估这些类的相对丰度在统计上的显著差异。例如,爱德华兹et al。2006)从苏丹铁矿内氧化缺氧的环境中取样,发现这两个群落优先利用不同的呼吸途径的证据。为宏基因组对的统计分析开发了一些专用的生物信息学应用,包括XIPE-TOTEC (rodrigez - britoet al。2006), ShotgunFunctionalizeR (Kristianssonet al。2009)和梅根(米特拉et al。2009)。还开发了一些软件包,重点关注评估宏基因组组之间差异的互补问题(Gianouliset al。2009;Lozupone和Knight,2005;城堡et al。2009;白色et al。2009)。

虽然这样的比较是信息丰富的,但区分结果是至关重要的生物相关的(即两个或多个地点之间的频率确实不同,由于一些潜在的分类学或生态现象)统计有很重要的意义。统计显著性既不是生物相关性的必要标准,也不是充分标准(Nakagawa和Cuthill,2007),但通常用作过滤器来删除无趣的特征,其中观察到的差异可以合理地归因于采样工件。推理一个特征的生物相关性需要考虑效应大小及其相关的置信区间。统计结果的解释也可以从转换原始数据中受益P-对可能具有更好解释的替代测量的值(Storey和Tibshirani,2003),并允许交互过滤,允许关注具有特定统计属性的特征。

在这里,我们讨论了宏基因组数据分析中的关键统计问题,并介绍了一个新的应用程序STAMP (metagenomic Profiles的统计分析),它为执行本文讨论的统计技术提供了一个用户友好的图形化环境。

2方法

2.1输入数据

这里讨论的统计方法和软件可以应用于从一对宏基因组样本中获得的任何计数数据。通常,我们感兴趣的是定义一个轮廓的相关特征的集合(例如,指示分配给不同生物子系统或途径的序列数量的功能轮廓)。对特定特征的统计评估可以使用列联表进行,如表1。表项x1而且x2两个样本中的序列数是否分配给感兴趣的特征,而y1而且y2是分配给其他特性的数字吗?概要文件中的序列总数由列和给出C1而且C2。对于层次分类方案,例如分类法或SEED功能分配(Overbeeket al。2005),我们还可以研究一个特征中相对于分配给层次结构中父类别的序列总数的序列数。在这种情况下,列和表示分配给父类别的序列数量,而不是样本中序列的总数。

表1。

列联表汇总感兴趣特性的数据

示例1 示例2
特征序列 x1 x2 R1x1+x2
其他特征序列 y1 y2 R2y1+y2
已分配序列总数 C1x1+y1 C2x2+y2 N= C1+ C2
示例1 示例2
特征序列 x1 x2 R1x1+x2
其他特征序列 y1 y2 R2y1+y2
已分配序列总数 C1x1+y1 C2x2+y2 N= C1+ C2
表1。

列联表汇总感兴趣特性的数据

示例1 示例2
特征序列 x1 x2 R1x1+x2
其他特征序列 y1 y2 R2y1+y2
已分配序列总数 C1x1+y1 C2x2+y2 N= C1+ C2
示例1 示例2
特征序列 x1 x2 R1x1+x2
其他特征序列 y1 y2 R2y1+y2
已分配序列总数 C1x1+y1 C2x2+y2 N= C1+ C2

2.2统计学假设检验

P-由统计假设检验产生的值表示所观察到的差异仅仅是偶然发生的概率。配置文件中的特性P-低于名义上选择的阈值(例如0.05)的值被称为统计显著性,可以合理地假设是由于生态或分类学差异而在某个宏基因组中富集,而不是采样人为物的结果。Rodriguez-Britoet al。2006)最近通过引入非参数的自举检验(XIPE-TOTEC)来解决评估统计显著性的需要。该测试已应用于最近的几项研究(Brulcet al。2009;Dinsdaleet al。2008 b;爱德华兹et al。2006;谅解备忘录et al。2008;Poretskyet al。2009;曲et al。2008;恩伯et al。2006;恩伯et al。2009;Urichet al。2008;维尔纳et al。2009)。

XIPE-TOTEC通过从两个宏基因组的所有序列组成的集合中随机绘制序列并进行替换,为给定的特征构建空分布。两个样本从这个集合中提取序列,感兴趣的特征的序列数量的差异用作测试统计量。为了准确地估计空分布,这个过程要重复多次。这种方法的困难在于是一个自由参数。增加减少了空分布的宽度,从而增加了被识别为重要的特征的数量(补充表S1)。Allen最近提出了一种具有相同要求的类似方法et al。2009)。

为了评估任何观察到的差异作为抽样工件的概率,我们必须考虑最初从每个样本中获得的序列的数量(即。C1而且C2)。一些“经典”测试满足这一要求,并可以根据它们是否假设有或没有替换抽样进行分类。虽然这些测试的目的是产生相同的结果,但在实践中,可能会有相当大的变化P-它们产生的值(补充表S2、S3和S4)。

2.2.1不更换抽样

蒙特卡洛排列检验是一种广泛使用的非参数技术,用于在给定的零假设下对检验统计量的分布进行建模[参见Manly (2007)进行综合治疗]。通过计算样本标签的足够大的随机排列下的检验统计量的值来逼近零分布。一个P-value可以计算为近似零分布的比例,等于或更极端的观测数据。

为了精确地模拟零分布,必须考虑所有可能的排列。一对宏基因组样本中序列的排列可以看作是从由两种类型的序列(即来自当前感兴趣的特征的序列和来自其他特征的序列)组成的有限种群中绘制没有替换的序列。这就是超几何分布的定义。费雪精确检验使用这个分布来有效地计算精确P-value,而不必详尽地枚举所有排列(Agresti,1990)。

卡方检验和g检验是著名的Fisher精确检验的大样本近似(Agresti,1990)。虽然这些近似值对于相等的样本容量是准确的,但对于不等的样本容量,它们可以产生P-值大大小于Fisher精确检验给出的值(补充表S2-S4)。Yates的连续性修正经常被推荐用于这些近似方法,它的好处是使它们保守,但代价是不太准确(补充表S2-S4)。对于列联表的条目“小”,传统上定义为5或10,不建议使用这些近似(补充表S3;科克伦,1952),但在其他一系列条件下,结果并不理想(Agresti,1992以及里面的参考资料)。

根据常用的“最小似然”方法计算的费雪精确检验的执行时间(补充表S5)是两个样本中分配给某个特征的序列数的线性函数(即。R1)。当分配给一个特征的序列数为10 000 (补充图S1)。因此,我们建议使用Fisher精确检验而不是大样本近似检验,因为宏基因组轮廓很少包含超过几千个序列的特征,通常大小不等,通常有许多特征,导致表项“小”。竞争对手et al。2007)还建议在对基因本体(GO)类别的富集或耗尽的潜在假设检验进行类似分析后使用Fisher精确检验。

2.2.2替换抽样

最合适的计算方法P2 × 2列联表的-值一直存在争议(Barnard,1947;巴纳德,1989;哈伯,1987;Ludbrook,2008)。Fisher精确测试的反对者认为,假设固定的行和列总数导致测试过于保守(Agresti,1990;Ludbrook,2008;Mehta和Senchaudhuri,2003)。从宏基因组学的角度来看,这相当于假设如果我们重新采样我们的两个群落,我们将从每个群落中获得与原始数据集相同数量的序列(即。C1而且C2是固定的)而且在两个样本中分配给一个特征的序列总数将保持不变(即。R1是固定的)。

我们可以通过执行自举检验来放松对行总数的固定,在自举检验中,按照Rodriguez-Brito提出的方法,通过替换抽样生成随机样本et al。2006)。在这个模型下,我们假设为两个样本绘制的序列数始终保持不变,但分配给每个特征的序列数可以自由变化。从由两类序列组成的有限总体中绘制具有替换的序列,得到二项分布。对于大样本容量,我们可以将这些二项分布近似为正态分布,N1而且N2。之间的差值所产生的正态分布N1而且N2形成了众所周知的“比例差异”的基础z以及。尽管它们的公式有明显的不同,但这个检验相当于卡方检验(竞争对手et al。2007),并分享其局限性。

为了精确地模拟空分布,当进行替换抽样时,需要知道分配给一个特征的序列的真实比例,p在考虑的两种微生物种群中。自举测试估计这个总体参数作为从感兴趣的特征中采样的序列的比例(即。p帽子R1/N)。或者,可以通过设置来执行精确测试p帽子我们的价值最大化P-value为Barnard (1947)。不幸的是,这种方法在计算上是禁止的,即使是适度的样本量,尽管努力优化该方法(Mato和Andres,1997)。因为自举测试依赖于对的估计p,它不是一个精确的测试,而当这个估计很差时就可以产生P-与巴纳德或费雪的精确测试相比,这些值是极其自由的(补充表S6)。

鉴于Barnard的检验在计算上对典型宏基因组剖面中的大多数特征是禁止的,我们必须在近似于Barnard的精确检验(例如自举)和Fisher的精确检验之间做出决定。我们建议使用Fisher的精确检验,因为与Barnard的精确检验相比,它通常是保守的(补充表S6;Mehta和Senchaudhuri,2003),在计算上易于处理宏基因组谱,并且为大多数研究人员所熟悉。

2.3效应量

为了评估一个特征是否具有生物学相关性,我们必须考虑观察到的差异的大小(即效应量统计)。如果样本量足够大(补充图S2),因此生物学意义必须得到效应量统计数据的支持P值。

给出了三种常见的效应量统计量表2(西斯特罗姆和加文,2004)。最直观的统计数据是两个样本中分配给给定特征的序列的比例之差(DPs)。解释比例比例(RPs)也是很自然的,并为DP提供补充信息。在评估生物相关性时,考虑多个效应量统计通常是必要的,因为特征可能具有小(大)DP,但大(小)RP。优势比(OR)被广泛使用,并具有许多理想的数学性质(Bland和Altman,2000)。然而,它经常被批评为难以解释(Agrawal,2005;Sackettet al。1996),我们建议RP在解释和报告结果时优先于手术室。

表2。

效应量统计通常应用于2 × 2列联表

效应量统计 方程
比例差异 DP =p1p2
比例比例 RP =p1/p2
或= (x1/y1) / (x2/y2
效应量统计 方程
比例差异 DP =p1p2
比例比例 RP =p1/p2
或= (x1/y1) / (x2/y2

p1x1/C1p2x2/C2;RP通常被称为相对风险。

表2。

效应量统计通常应用于2 × 2列联表

效应量统计 方程
比例差异 DP =p1p2
比例比例 RP =p1/p2
或= (x1/y1) / (x2/y2
效应量统计 方程
比例差异 DP =p1p2
比例比例 RP =p1/p2
或= (x1/y1) / (x2/y2

p1x1/C1p2x2/C2;RP通常被称为相对风险。

2.4置信区间

置信区间(CI)表示具有与观测数据兼容的指定概率的效应大小值的范围。例如,95% CI给出了一个下限和上限,在这个下限和上限中,真实的效应大小将被包含19次。了解这些界限通常是评估生物学相关性的重要帮助。尽管如此,我们还不知道有任何比较宏基因组研究报告了效应值ci (补充表S7)。

两者之间有着密切的关系P-values和ci。一个P-value表示在假设样本来自相同微生物群落的情况下,观察到给定列联表的概率。CIs没有这样的假设。因此,包含“恒等”效应大小的CI(例如DP = 0或RP = or = 1)将具有一个P-value >1减去CI的覆盖率(即aP-value≥0.05为95% CI)。如果“恒等”效应大小在CI之外,则P-value将为<1减去CI的覆盖率。ci的信息量比P-值,许多ci的支持者建议他们使P-不必要的值(Nakagawa和Cuthill,2007)。尽管如此,P-values是一个有用的汇总统计值,并在执行多个假设检验时提供了一种自然的方式来对结果进行排序和过滤。

ci随样本量的不同而有很大差异(补充图S3;特征1a和2a)。关键的是,ci为我们提供了一个均值来推断一个特征的生物学相关性,即使它在统计上具有边际显著性;特征1c和2c表明,统计显著性和非显著性特征之间的差异在效应量和CI边界方面可以是最小的。例如,2c的CI表明,0的效应大小与“反零假设”的真实差异(比例为8.5%)一样可能(Rosenthalet al。2000)。这提醒我们不要对生物相关性做出两分法的决定,仅仅基于如何P值与名义显著性水平(即0.05)进行比较。推断生物相关性最好是在所有可用信息的背景下进行,其中许多信息并不适合对单变量反应进行数值分析,例如P价值。

2.5多次试验校正

一个典型的宏基因组剖面由几百个特征组成。在执行多个假设检验时,修改P-值,以便它们反映特定的解释。例如,如果一个配置文件包含100个特性,那么包含a的特性的数量P-value <0.05由于概率变化一般为5。如果我们希望检查一个特征列表,其中观察到一个或多个假阳性的概率小于指定的概率,我们可以使用直接控制家族错误率(FWER)的校正方法。常用的FWER方法有Bonferroni, holm - bonfernoi和Šidák (Abdi,2007)。或者,在探索性分析期间,我们可能愿意接受一个特定百分比的假阳性。这可以通过Benjamini - Hochberg错误发现率(FDR)程序(Benjamini and Hochberg,1995)或Storey FDR方法(Storey和Tibshirani,2003)。这些方法计算-value,表示值较小的特征集内假阳性的预期比例价值。

在执行探索性分析时,这些方法相互补充。当没有应用多重测试校正方法时,获得的显著特征列表让我们对样本之间可能存在差异的特征有了初步的全局了解。可以使用FDR方法来细化这个初始列表,并明确预期误报的数量。最后,FWER技术可以用于将我们的注意力集中到那些观察到的富集或消耗不太可能是采样工件的特征上。

3实现

在这里,我们介绍了我们的开源软件包,用于执行宏基因组谱统计分析(STAMP)。我们的软件提供了一个用户友好的图形界面,允许轻松采用本文中讨论的统计方法。

3.1实现细节

STAMP是用Python实现的(http://www.python.org),并可在所有主要平台上执行。

3.1.1输入数据

STAMP可以读取MG-RAST (Meyeret al。2008)以及IMG/M网站上提供的所有“丰度资料”(Markowitzet al。2008)。可以使用一种可访问的制表符分隔值的文件格式指定自定义概要文件。我们目前正在为流行的社区资源开发其他解析器,例如RDP (Cole . rRNA)的naïve贝叶斯rRNA分类器et al。2009)。

3.1.2统计学假设检验

我们提供了Fisher精确检验的优化实现。尽管Fisher精确检验优于渐近逼近,但为了完整性,我们提供了卡方检验和g检验的实现(包括和不包括Yates连续性修正)。基于本文的讨论2.2.2节,一些用户可能倾向于使用非参数自举检验。我们还为研究人员提供了一个巴纳德测试的实现,以考虑导致小表的配置文件(即。N< 20)。支持单侧和双侧检测,但对于宏基因组研究,由于竞争对手中给出的原因,通常应报告双侧检测结果et al。2007)。

3.1.3效应量和置信区间

所有的效应量统计表2均可在STAMP内获得。DP统计量的ci可以用标准渐近方法、带连续性校正的渐近方法或纽科姆-威尔逊方法(补充表S8;纽康比,1998)。标准渐近CI方法用于RP和OR统计,因为它们即使在具有小条目的表上也表现良好(补充表S8;Agresti,1999;劳森,2004)。STAMP还提供了一个蒙特卡罗模拟框架,用于评估特定数据集上CI方法的准确性。

3.1.4多重假设检验校正

中讨论的FWER和FDR方法2.5节均可在STAMP内获得。Storey的FDR方法基于Storey中讨论的自举方法et al。2004)。

3.1.5特征过滤

特征可以根据分配给每个样本或父类别的序列数量,其观察到的效应大小及其相关的数量进行过滤P价值。可以选择特定的特征子集(例如,涉及呼吸的所有子系统),并有选择地对它们进行过滤。

3.1.6情节

使用STAMP可以生成大量具有出版质量的图。条形图和散点图表示所有特征的相对频率,允许对宏基因组谱进行初步的探索性分析。补充图S7和S8)。扩展的误差条图(例如:无花果1 - 3)提供一个单一的数字,指示分配给一个特征的序列数P-value,效应大小和CI。另外还有几个地块可供选择。

图1所示。

来自“红”和“黑”铁矿宏基因组的膜运输子系统。纠正P-值使用Storey的FDR方法计算。在“红色”(“黑色”)社区中过多代表的子系统在比例上存在正(负)差异。

图2所示。

来自“红”和“黑”铁矿宏基因组的膜运输子系统。纠正P-值使用Storey的FDR方法计算。在“红色”(“黑色”)社区中过多代表的子系统在比例上存在正(负)差异。

图3所示。

子系统的充实或枯竭A.phosphatis美国和澳大利亚EBPR社区的菌株。纠正P-值使用Bonferroni校正计算。在美国(澳大利亚)社区中代表过多的子系统在比例上有正(负)的差异,并用红(蓝)色表示。

3.1.7可扩展架构

STAMP使用插件架构,以允许新的统计假设检验、效应量统计、CI方法、多个比较程序或图表容易地集成到软件中。

3.1.8命令行界面

提供了一个命令行界面,以方便批处理或Kumar和Dudley建议的“应用程序链接”(2007)。

3.1.9多宏基因组比较

最近的一些研究使用XIPE-TOTEC在所有可能的宏基因组对之间进行成对测试来比较多个宏基因组(Brulcet al。2009;Dinsdaleet al。2008 b;恩伯et al。2009;维尔纳et al。2009)。这种分析可以使用STAMP命令行界面以类似于XIPE-TOTEC的方式执行,也可以通过STAMP的图形界面进行交互。我们目前正在扩展STAMP,使用额外的图和探索性工具,专门针对多个成对测试。

3.2与现有软件的比较

这里和里面补充表S9,我们总结了STAMP、xpe - totec (rodrigez - britoet al。2006), ShotgunFunctionalizeR (Kristianssonet al。2009),梅根(米特拉et al。2009)和IMG/M (Markowitzet al。2008)。XIPE-TOTEC只报告统计上有显著意义的特征,而没有指出其计算结果P价值。ShotgunFunctionalizeR在R统计计算环境中运行(http://www.r-project.org),并提供了比较由多个宏基因组组成的组的统计检验。MEGAN是一个具有图形界面的跨平台工具,主要关注分类配置文件。分类层次结构显示为树状结构,统计结果以文本和图形的方式为层次结构中的每个节点报告。IMG/M是一个门户网站,提供了一些比较宏基因组学的工具,包括成对统计假设检验。值得注意的是,这些软件包都没有报告效应大小或ci。

4的结果

4.1苏丹铁矿宏基因组

Edwards对来自美国明尼苏达州Soudan铁矿不同栖息地的两个样品进行了测序和分析et al。2006)。“黑色”样品(pH值6.7,氧化还原电位-142 mV)取自钻孔内的水,“红色”样品(pH值4.37,氧化还原电位-8 mV)取自距离钻孔口几厘米的地方,通道中的氧气显著降低了钻孔水中的pH值和氧化还原电位。爱德华兹获得了这些样品的功能剖面et al。2006)通过将焦磷酸测序获得的未组装reads与SEED数据库(补充的方法)。

在这里,我们对比了爱德华兹报告的统计结果et al。2006)使用XIPE-TOTEC,而使用STAMP中提供的统计技术获得的数据。Fisher精确检验识别出的具有统计意义的子系统比XIPE-TOTEC v2.4少约11%,重复样本量为= 5000 (表3)。这种重复样本量在Edwards中使用et al。2006),这可能是“黑色”和“红色”群体中分别包含2319和13221个序列的两个配置文件的大小之间的妥协。爱德华兹et al。2006)仅报告了69个具有统计意义的子系统,因为似乎对包含很少分配序列的子系统进行了手动编辑。

表3。

识别生物学上有趣的子系统

XIPE-TOTEC 邮票
总子系统 247
统计上显著一个 98 87
手动过滤 69 - - - - - -
在至少一个样品中具有≥5个序列 NA 74
RP≥2或DP≥0.5%,且序列≥5个 NA 71
如上所述,Storey的FDR方法 NA 60
XIPE-TOTEC 邮票
总子系统 247
统计上显著一个 98 87
手动过滤 69 - - - - - -
在至少一个样品中具有≥5个序列 NA 74
RP≥2或DP≥0.5%,且序列≥5个 NA 71
如上所述,Storey的FDR方法 NA 60

一个双侧检验,显著性水平α=0.05。

表3。

识别生物学上有趣的子系统

XIPE-TOTEC 邮票
总子系统 247
统计上显著一个 98 87
手动过滤 69 - - - - - -
在至少一个样品中具有≥5个序列 NA 74
RP≥2或DP≥0.5%,且序列≥5个 NA 71
如上所述,Storey的FDR方法 NA 60
XIPE-TOTEC 邮票
总子系统 247
统计上显著一个 98 87
手动过滤 69 - - - - - -
在至少一个样品中具有≥5个序列 NA 74
RP≥2或DP≥0.5%,且序列≥5个 NA 71
如上所述,Storey的FDR方法 NA 60

一个双侧检验,显著性水平α=0.05。

使用STAMP中提供的过滤器,我们确定了15%由Fisher精确检验确定的具有统计意义的子系统从每个样本中分配给它们的序列少于5个(26%有10个或更少序列)。使用自由的绝对效应量(DP≤0.5%)和相对效应量(RP≤2)要求进行额外的过滤,得到了71个子系统的列表,这些子系统具有足够的统计支持,可以进一步考虑它们的生物学相关性。应用Storey的FDR方法-value阈值0.05将这个列表减少到60个子系统,并明确表明我们应该预期其中三个是假阳性。补充图S4表示这60个子系统中每个子系统的序列数量及其效应大小、CI和价值。进一步研究这些子系统的生物学相关性将受益于考虑这些信息。

在Edwards进行代谢分析et al。2006)重点研究了“呼吸”和“铁的吸收和利用”代谢类。我们的分析支持“红色”有氧和“黑色”无氧社区主要利用不同的呼吸途径(图1而且补充图S5)。爱德华兹et al。2006)还提出,“黑人”社区有更丰富的基因参与铁的吸收和利用,因为铁(Fe3 +)在这个群体中与“红色”样本相比是有限的。尽管这一假设得到了不同子系统数量的支持,这些子系统在“黑人”社区中被过度代表(图2而且补充图S6)时,需要谨慎,因为分配给这些子系统的序列数量非常少。

对比图1补充图S5),2补充图S6)说明报告效应量和ci的好处。我们应该更有信心将生物学相关性分配给子系统,如“NiFe氢化酶成熟”,它具有较大的DP和RP,而不是像“ABC转运体富铁体”这样的子系统,其中DP较小,RP可能相对较小,如该特征的CI所示。从更广泛的角度来看,在这些群落中,生态差异导致优先利用交替呼吸途径的证据远远强于铁浓度差异的证据3 +驱动铁更新和利用基因的过度代表。

4.2Accumulibacter phosphatis菌株在增强生物除磷宏基因组

增强型生物除磷(EBPR)是一种利用微生物去除废水中过量无机磷酸盐的处理工艺,如果不加以处理,废水将导致出口生态系统富营养化。尽管EBPR的经济和环境效益已导致其在全球污水处理厂(WWTP)中被采用,但由于对EBPR微生物学的不完全了解,这些系统的性能随着时间和地点的变化而变化。这里,我们比较的功能配置文件A.phoshatis来自澳大利亚和美国的两个实验室规模的污水处理厂(García Martínet al。2006)。

A.phosphatis来自这两个群体的基因被划分为26个功能类(补充图S7),共包含491个SEED子系统(补充图S8)。其中142个(29%)从两个样本中分配的序列少于10个,没有进一步考虑。具有统计意义的特征数目(P-value≤0.05)使用Fisher精确检验确定的值为116(33%),而考虑的其他统计假设检验则在107到120之间变化(补充表S10)。应用Storey的FDR和Bonferroni的FWER方法,将其分别减少到77个(22%)和22个(6%)特征的列表(补充表S10)。

在应用Bonferroni校正后确定为统计显著性的特征给出图3。虽然“磷酸盐代谢”在美国社区中显著过高,但目前尚不清楚这种过高的代表是否与EBPR社区中关键的聚磷酸盐代谢过程有关。在这一组中,载脂蛋白N-酰基转移酶在美国样本中表现出最强的过度代表性(P= 8.15 × 10−4)。其他重要的系统包括“一般分泌途径”,它涵盖了广泛的假定功能,包括胞外多糖生物合成和II型(包括菌毛组装)和III型分泌系统。在两个样本中都鉴定出了与金属相关的几种运输蛋白;关于这些系统中金属离子浓度的元数据可以揭示有毒金属与解毒或排除它们所需的系统之间的联系。移动元件(Tn552)和噬菌体相关蛋白(CBSS-159087.4.peg.2189)的过度表达可能表明噬菌体和移动元件的地方性菌株(Kuninet al。2008)。

5讨论

在对生物相关性进行推断时,必须考虑潜在的误差来源以及它们如何影响统计技术的结果。比较宏基因组学在很大程度上依赖于“关联罪责”范式,在这种范式中,reads的功能或分类学起源是根据与参考数据库测序的相似性来分配的。这导致了宏基因组配置文件中四个值得注意的错误来源:(i)假设序列相似性意味着功能相似性,(ii)数据库偏向于某些功能子系统或分类单位,(iii)错误注释导致读数错误地与特定功能或分类类别相关联,以及(iv)在数据库中没有可靠匹配的读数被有效丢弃。调查这些错误来源的严重性是一个活跃的研究领域(Eisen,1998;弗里德伯格,2006;Schnoeset al。2009)。当决定这些误差来源是否有可能解释观察到的统计上重要的子系统或分类单元的充实或枯竭时,对分配给一个特征的效应大小、CI宽度和序列数的了解是必不可少的。

对于帮助生物推断的统计技术,它们必须被正确地解释和报告。STAMP提供了一个图形化环境,用于执行统计分析,并通过具有足够信息的出版质量图交互式地探索结果,以推断生物学相关性。这些功能使STAMP成为一个有价值的工具,将帮助研究人员解释和交流他们的统计分析结果。

确认

我们要感谢Dennis Wong的深刻讨论,并为我们提供了EBPR的阅读CandidatusA.phosphatis和迈克尔·波特在麦金塔版STAMP上寻求帮助。

资金:基拉姆信托公司(致D.H.P.)。rgb感谢Genome Atlantic和加拿大研究主席计划的支持。

利益冲突:未声明。

参考文献

Abdi
H
计量和统计百科全书。
2007
加州千橡市
圣人
Agrawal
D
对优势比的不恰当解释:奇怪的是,这并不罕见
儿科
2005
,卷。
116
(pg。
1612
-
1613
Agresti
一个
分类数据分析。
1990
纽约
威利
Agresti
一个
列联表的精确推理综述
统计科学。
1992
,卷。
7
(pg。
131
-
153
Agresti
一个
小样本比值比的logit置信区间
生物识别技术
1999
,卷。
55
(pg。
597
-
602
艾伦
等。
嗜冷古生菌的基因组序列,burtonii甲烷球:基因组进化在冷适应中的作用
ISME J。
2009
,卷。
3.
(pg。
1012
-
1035
巴纳德
遗传算法
2 × 2表的显著性检验
生物统计学
1947
,卷。
34
(pg。
123
-
138
巴纳德
遗传算法
所谓的从低p值中获得的权力
统计,地中海。
1989
,卷。
8
(pg。
1469
-
1477
平淡无奇
JM
奥特曼
DG
优势比
BMJ
2000
,卷。
320
pg。
1468
贝贾
O
等。
细菌视紫红质:海洋中一种新型光养生物的证据
科学
2000
,卷。
289
(pg。
1902
-
1906
Benjamini
Y
业务
Y
控制错误发现率:一种实用而强大的多重测试方法
英国皇家统计协会B
1995
,卷。
57
(pg。
289
-
300
Brulc
J
等。
纤维粘附牛瘤胃微生物群的基因中心宏基因组揭示了饲料特异性糖苷水解酶
国家科学院学报美国
2009
,卷。
106
(pg。
1948
-
1953
科克伦
工作组
拟合优度的卡方检验
安。数学。统计。
1952
,卷。
23
(pg。
315
-
345
科尔
等。
核糖体数据库项目:改进的比对和rRNA分析的新工具
核酸测定。
2009
,卷。
37
(pg。
D141
-
D145
Dinsdale
E
等。
9个生物群落的功能宏基因组分析
自然
2008
,卷。
452
(pg。
629
-
632
Dinsdale
E
等。
北线群岛四个珊瑚环礁的微生物生态
《公共科学图书馆•综合》
2008
,卷。
3.
pg。
e1584
爱德华兹
R
等。
焦磷酸测序技术研究深部矿井微生物生态学
BMC基因组学
2006
,卷。
7
pg。
57
艾森
晶澳
系统基因组学:通过进化分析改进未特征基因的功能预测
基因组Res。
1998
,卷。
8
(pg。
163
-
167
弗里德伯格
自动化蛋白质功能预测——基因组的挑战
简短。Bioinform。
2006
,卷。
7
(pg。
225
-
242
加西亚
MH
等。
两种强化生物除磷(EBPR)污泥群落的宏基因组分析
生物科技Nat。》。
2006
,卷。
24
(pg。
1263
-
1269
Gianoulis
助教
等。
宏基因组学中代谢途径的环境适应量化
国家科学院学报美国
2009
,卷。
106
(pg。
1374
-
1379
哈伯
2 × 2列联表条件与无条件精确检验的比较
Commun。统计,同时。
1987
,卷。
16
(pg。
999
-
1013
哈勒姆
SJ
等。
逆向甲烷生成:用环境基因组学检验假说
科学
2004
,卷。
305
(pg。
1457
-
1462
Hamady
骑士
R
人类微生物组项目的微生物群落分析:工具、技术和挑战
基因组Res。
2009
,卷。
19
(pg。
1141
-
1152
Kanehisa
等。
用于破译基因组的KEGG资源
核酸测定。
2004
,卷。
32
(pg。
D277
-
D280
Kristiansson
E
等。
ShotgunFunctionalizeR:用于宏基因组功能比较的r包
生物信息学
2009
,卷。
25
(pg。
2737
-
2738
库马尔
年代
达德利
J
基因组学时代生物学家的生物信息学软件
生物信息学
2007
,卷。
23
(pg。
1713
-
1717
Kunin
V
等。
一个细菌的超种群在局部适应噬菌体的捕食,尽管遍布全球
基因组Res。
2008
,卷。
18
(pg。
293
-
297
劳森
R
优势比的小样本置信区间
Commun。统计,同时。
2004
,卷。
33
(pg。
1095
-
1113
莱伊
再保险
等。
微生物生态学:人类肠道微生物与肥胖相关
自然
2006
,卷。
444
(pg。
1022
-
1023
Lozupone
C
骑士
R
UniFrac:一种比较微生物群落的系统发育新方法
达成。环绕。Microbiol。
2005
,卷。
71
(pg。
8228
-
8235
Ludbrook
J
2 × 2频率表分析:匹配试验与实验设计
Int。j .论文。
2008
,卷。
37
(pg。
1430
-
1435
男子气概的
BFJ
Manly:生物学中的随机化、自举和蒙特卡罗方法
2007
3日
FL
查普曼和霍尔/CRC,泰勒和弗朗西斯集团6000破碎之声公园路西北,套房3000波卡拉顿
pg。
455
马科维茨
虚拟机
等。
IMG/M:宏基因组数据管理和分析系统
核酸测定。
2008
,卷。
36
(pg。
D534
-
D538
南马托格罗索
作为
安德烈斯
简化巴纳德检验及其衍生品的p值计算
Stat。第一版。
1997
,卷。
7
(pg。
137
-
143
梅塔
CR
Senchaudhuri
P
比较两个二项式的条件和无条件精确检验。
2003
迈耶
F
等。
宏基因组RAST服务器——用于宏基因组自动系统发育和功能分析的公共资源
BMC生物信息学
2008
,卷。
9
pg。
386
密特拉
年代
等。
宏基因组的视觉和统计比较
生物信息学
2009
,卷。
25
(pg。
1849
-
1855
谅解备忘录
X
等。
沿海海洋中通种细菌的碳加工
自然
2008
,卷。
451
(pg。
708
-
711
中川昭一
年代
Cuthill
集成电路
效应大小,置信区间和统计显著性:生物学家的实用指南
医学杂志。坎布牧师,菲尔。Soc。
2007
,卷。
82
(pg。
591
-
605
纽康比
RG
独立比例差异的区间估计:十一种方法的比较
统计,地中海。
1998
,卷。
17
(pg。
873
-
890
Overbeek
R
等。
基因组注释的子系统方法及其在注释1000个基因组的项目中的使用
核酸测定。
2005
,卷。
33
(pg。
5891
-
5702
Poretsky
RS
等。
北太平洋亚热带环流微生物群落的日/夜变异组比较分析
Env。Microbiol。
2009
,卷。
11
(pg。
1358
-
1375
一个
等。
比较宏基因组学揭示了鸡盲肠微生物群中宿主特异性的元病毒组和水平基因转移元件
《公共科学图书馆•综合》
2008
,卷。
3.
pg。
e2945
竞争对手
等。
一类基因中GO类的富集或缺失:哪种测试?
生物信息学
2007
,卷。
23
(pg。
401
-
407
Rodriguez-Brito
B
等。
统计学在比较宏基因组学中的应用
BMC生物信息学
2006
,卷。
7
pg。
162
罗森塔尔
R
等。
行为研究中的对比和效应量:一种相关方法。
2000
剑桥
剑桥大学出版社
Sackett
戴斯。莱纳姆:
等。
打倒优势比!
循证医学。
1996
,卷。
1
(pg。
164
-
166
城堡
PD
等。
介绍mother:开源、平台独立、社区支持的软件,用于描述和比较微生物群落
达成。环绕。Microbiol。
2009
,卷。
75
(pg。
7537
-
7541
Schnoes
等。
公共数据库中的注释错误:酶超家族中分子功能的错误注释
公共科学图书馆第一版。医学杂志。
2009
,卷。
5
pg。
e1000605
Sistrom
CL
嘉芬
连续波
比例,几率和风险
放射学
2004
,卷。
230
(pg。
12
-
19
JD
Tibshirani
R
全基因组研究的统计学意义
国家科学院学报美国
2003
,卷。
One hundred.
(pg。
9440
-
9445
JD
等。
强控制,保守点估计,同时保守一致性的错误发现率:一个统一的方法
英国皇家统计协会B
2004
,卷。
66
(pg。
187
-
205
Tringe
SG
等。
微生物群落的比较宏基因组学
科学
2005
,卷。
308
(pg。
554
-
557
恩伯
PJ
等。
与肥胖相关的肠道微生物组具有增加的能量收集能力
自然
2006
,卷。
444
(pg。
1027
-
1031
恩伯
PJ
等。
肥胖和瘦弱双胞胎的核心肠道微生物群
自然
2009
,卷。
457
(pg。
480
-
484
Urich
T
等。
通过元转录组分析同时评估土壤微生物群落结构和功能
《公共科学图书馆•综合》
2008
,卷。
3.
pg。
e2527
白色
等。
在临床宏基因组样本中检测差异丰度特征的统计学方法
公共科学图书馆第一版。医学杂志。
2009
,卷。
5
pg。
e1000352
维尔纳
D
等。
囊性纤维化和非囊性纤维化个体呼吸道DNA病毒群落的宏基因组分析
《公共科学图书馆•综合》
2009
,卷。
4
pg。
e7370
Yooseph
年代
等。
巫师II全球海洋取样考察:扩大蛋白质家族的宇宙
公共科学图书馆杂志。
2007
,卷。
5
pg。
e16天

作者指出

副主编:亚历克斯·贝特曼

补充数据