摘要

核糖体数据库项目;http://rdp.cme.msu.edu/)为研究界提供了对齐和注释的rRNA基因序列数据,以及允许研究人员在RDP框架中分析他们自己的rRNA基因序列的工具。RDP数据和工具被用于人类健康、微生物生态学、环境微生物学、核酸化学、分类学和系统发育等不同领域。除了排列和注释的细菌和古细菌小亚基rRNA基因集合外,RDP现在还包括真菌大亚基rRNA基因集合。RDP工具,包括分类器和校准器,已经更新,以使用这个新的真菌集合。在过去的几年中,高通量测序技术在环境微生物种群特征研究中的应用出现了爆炸式增长,随着测序技术的改进,环境数据集的规模也有所增加。在第11版中,RDP提供了一组扩展的工具来促进高吞吐量数据的分析,包括单链和对端读取。此外,大多数工具现在都是开源包,供有大量需求或想要开发自定义分析管道的研究人员下载和本地使用。

介绍

Ribosomal Database Project (RDP) 11.1, 2013年10月发布(http://rdp.cme.msu.edu/),包含细菌和古细菌小亚基(SSU) rRNA基因序列2 809 406条,真菌大亚基(LSU) rRNA基因序列62 860条。RDP数据库中的大多数rRNA基因序列是不完整的。其中大部分来自PCR扩增产物测序,而少量较老的条目来自分离的rRNA的逆转录酶测序。由于PCR扩增使用引物到基因内部的保守区域,这些序列很少覆盖基因的3 '和5 '端(图1).尽管如此,完整的基因序列的多样化选择,主要来自基因组测序,是可用的。只有相对较小比例的细菌和古菌序列来自培养中的生物体;RDP中大约85%和97%的细菌和古菌序列分别来自直接从环境样本中分离的DNA。

图1所示。

基因覆盖:RDP版本11.1中覆盖参考序列上指定位置的序列数。(一)细菌SSU rRNA基因。相对于大肠杆菌序列GenBank接入J01695.1。灰色条表示可变区域(1).(B)古细菌SSU rRNA基因。相对于大肠杆菌序列GenBank接入J01695.1。(C)真菌LSU rRNA基因。相对于酿酒酵母GenBank登录NC_001144.5 LSU基因。D1和D2表示最初用于区分的高变量区域镰刀菌素spp。(2).D2区在长度和结构上都是最易变的真核LSU区之一(3.).这种高度的多样性可以提高RDP分类器在区分密切相关的属时的性能。基因覆盖图表可在线获取,并随着每个增量RDP版本的发布而更新。

在过去的几年里,许多对使用RDP工具分析环境中的真菌感兴趣的研究人员与我们接触。在最新发布的版本中,我们提供了真菌28S rRNA基因序列的比对和RDP分类器的真菌训练集,利用最近发表的系统发育一致性分类映射(4).对于我们的新真菌比对,覆盖基因5 '端位置的序列数量远高于3 '端(图1C). 28S基因比细菌的16S基因长得多,许多真菌研究人员似乎发现,对28S基因的5’区域进行测序为菌株分化提供了足够的系统发育分辨率。

RDP提供了用于浏览和搜索数据集合、分类分类和最近邻搜索、引物-探针测试和树构建的工具。此外,RDPipeline工具是专门为处理大量扩增子序列数据而设计的。新的工具在设计时考虑到了速度和容量,并且大多数以前发表的工具都进行了更新,以适应测序技术的最新变化。许多RDP工具也可以作为开源的独立包使用。

RDP数据收集

RDP从国际核苷酸序列数据库合作组织(INSDC;5)数据库。为了准备RDP版本,从“标准”数据类和分类部门“原核生物”,“真菌”和“环境样本”的数据文件从欧洲核苷酸档案(ENA;6) FTP站点。记录检查最小长度为500个碱基的“rRNA”特征键(为分类学分类提供足够的上下文)。如果在一个不在RDP数据库中的条目中找到这样的记录,或者在一个现有的但修改日期较新的条目中找到这样的记录,则提取由' rRNA '特征定义的序列。然后使用RDP SeqMatch工具(如下所述)的版本对这些新序列进行过滤,该工具是在一小组手工策划的细菌、古细菌、真核生物和线粒体SSU序列和真菌LSU序列上训练的。只有与细菌、古菌或真菌的S_ab分数至少为0.3的最佳匹配的序列才会被保存。原始的INSDC注释,包括结构化的注释,如基因组标准联盟mixs兼容的注释(7),亦被捕获。INSDC记录中的许多生物名称都不是最新的。我们从细菌命名法(Bacterial Nomenclature - up) (http://www.dsmz.de/).

使用相应的RDP Aligner和Classifier(见下文)对每个序列进行对齐和分类。任何具有负对齐位保存分数的序列将被丢弃。该序列归属于RDP分类法中最低的分类单元,分类自举置信度≥80%。通过此质量过滤的序列然后进行以下标记过程。来自型菌株的序列被标记为“型”。在bioproject.xml文件中列出的任何序列(可从NCBI ftp站点获得;8)被标记为基因组计划序列。所有16S rRNA基因序列均采用UCHIME (9)在参考模式。阳性的UCHIME结果被标记为“可疑”序列。接下来,NCBI分类学赋值(10)是使用从INSDC注释获得的db_xref限定符中的分类ID确定的。在NCBI分类单元中,名称包含“环境的”、“未培养的”或“未培养的”的任何序列都被标记为“未培养的”序列。对于每个版本,都有一组包含三个基因的完整序列集合的平面文件,以对齐或未对齐的FASTA格式和带注释的GenBank格式可供下载。对于每个版本,RDP都为NCBI LinkOut服务提供资源文件。这使得研究人员可以直接从NCBI的核苷酸和生物项目数据库中的相应记录跳转到RDP序列记录(11).

比对

RDP数据库中的序列使用Infernal进行对齐,Infernal是一种随机上下文无关的基于语法的对齐器(12).这种对齐器有几个优点:它将二级结构信息合并到对齐过程中;作为一个基于模型的对齐器,新的序列可以很容易地添加到一个预先存在的对齐;对于大量的序列,它已经足够快了。细菌和古细菌比对器使用来自比较RNA网站(CRW;13)和训练比对,我们分别使用2591个细菌和144个古菌全长序列(主要来自测序基因组)开发。细菌训练序列具有更大的覆盖范围(27门)比用于RDP release 10(16门)。基因组序列中的许多rRNA基因都标注了不正确的起始或终止位置。我们对这些进行了调整,以产生训练集的一致端点。我们优化了Infernal对准器参数,特别是相对熵,以提供更好的部分序列处理。模型和训练序列可从RDP网站下载。

V6区域特别难以放置到多个序列对齐中,因为大部分区域在大小、序列或二级结构上都不保守;然而,V6区域的高度多样性使其成为一个非常常见的放大目标。现有的工具通常不会尝试对该区域的扩增子进行多序列比对,而是对一组参考序列进行成对比对,以供分析(14).调整后的Infernal 1.1校准器能够正确校准由常用的V6引物放大的短区域内的低高变量位置(15),产生与全长序列所产生的匹配的区域对齐(图2).

图2。

常见V6可变区扩增引物之间对应区域的部分细菌16S rRNA序列的多序列比对(15).大写列对应于建模的位置。小写列对应的区域,其大小和结构的高度变异性排除了同源残基的分配。在系统发育分析之前,这些列通常被“屏蔽”掉。(一)使用新的RDP 11对齐模型。这与用全长序列获得的该区域的对齐匹配。(B)使用RDP 10对齐模型。除了RDP 11中的一个G-U对出现在RDP 10的对齐中,两个模型之间的全长序列的对齐几乎是相同的。绿色突出显示的碱基是与保守二级结构相匹配的标准碱基对。从上到下依次为AB006164、AB006178、AB021164、AB015577、AB003932、AB004715。

我们还通过比较使用该模型产生的比对比对CRW细菌种子比对比对测试了这个新的比对模型,CRW细菌种子比对比对是手工策划的,以匹配二级结构。Infernal比对将92.7%的碱基放置在可比对的位置(列),其余的碱基对应于细菌rRNA结构中不保守的位置。我们发现在99.3%的情况下,Infernal对齐的可对齐列中的一对残基被一起映射到CRW对齐的一列中。

真菌排列使用了一个由完整真菌基因组中的183个LSU序列和CRW真菌集构建的模型,覆盖了四个主要的真菌门:子囊菌门、担子菌门、壶菌门和囊胚菌门。为了建立训练模型,我们使用了CRW一般真核生物保护模型和酿酒酵母二级结构模型。在大核糖体亚基中,5.8S和28S分子形成共同的二级结构,训练模型包括5.8S和28S基因序列组合。(5.8S和28S之间的内部转录间隔ITS2演化太快,无法实现全局对齐,因此在我们的模型中被视为插入项。)这种真菌LSU校准器特别适用于校准从5.8S基因的全部或部分扩增和测序到28S基因的5 '部分的协议产生的序列,同时不影响仅28S基因序列的校准。

分类

RDP的细菌和古细菌分类学是根据Bergey 's Trust (http://www.bergeys.org/outlines.html).由于这些信息仅隔很长时间更新,我们从文献和命名法网站的原核生物名称列表(16).我们修改了这个分类学,根据已发表的非正式分类学,为几乎没有培养亲缘关系的群体添加了分支。我们将其与全物种活树项目的系统发育评估进行比较(17)和我们自己的评估使用RDP分类器。当这些来源之间存在差异时,我们通过从对齐的序列(包括来自文献分支的序列)中创建树来进行我们自己的系统发育评估,并接受那些最支持的分支。

RDP使用的真菌分类学是最近发布的分类学,是根据不同类群和分类学数据库(4),并更新。因为rRNA基因进化得太慢,无法可靠地分离有效命名的物种(18),属是RDP分类法中最低的等级。在可能的情况下,每个序列都保留了属和特定的称号,以及菌株标识符,但不用于对序列进行分组或排序。对于我们的系统发育分类评估不同于物种二名的正式命名属部分的物种,系统发育不正确(但有效)的名称与序列保持一致,将不同于指定的分类学谱系。

利用mcClust软件包中包含的增强距离计算工具生成的成对距离,以及RDP数据库中可用的序列和分类学数据,我们计算了每个域在属、科、目、纲和门水平上的群大小和分类单元内距离的累积曲线(图3).

图3。

累积曲线显示(一)分类单元大小和(B)intra-taxon距离。RDP发行版11.1中三个RDP集合中的所有对齐序列都按所述进行了聚类。一个分类单元中序列对之间的平均距离如(B)所示。对于古生菌和真菌,门曲线的形状,以及较小程度上的类曲线,可能受到这些分类单元中数量较少的分类单元和序列的倾斜表示的影响。

工具的描述

RDP网站为RDP数据库和工具提供了一个交互式界面。RDP工具通过上传文件或直接输入工具页面上的文本字段来接受研究人员的序列输入。公认的序列文件格式包括FASTA、FASTQ、GenBank和EMBL格式。大多数工具在允许交互式浏览的分类层次结构视图中显示结果。结果将保存在会话中,直到新任务开始,允许研究人员在不丢失结果的情况下切换工具。在大多数工具中,可以选择RDP序列并将其保存到SeqCart中,SeqCart又可以被其他RDP工具用作输入,或作为对齐或未对齐的序列文件下载,或作为与下载页面的距离矩阵下载。通过上传包含INSDC登录号或RDP标识符列表的文件,可以批量加载到SeqCart中。大多数工具都可以从RDP GitHub存储库(http://github.com/rdpstaff/).

RDP浏览器

RDP浏览器为RDP序列集合提供交互式web界面。层级浏览器使研究人员能够从RDP或NCBI分类法中显示的RDP集合中导航、搜索和选择序列。数据集选项允许研究人员基于以下选项的任何组合来检查序列记录的子集:类型或非类型菌株序列,未培养或分离的生物,部分或接近全长序列以及可疑质量或良好质量序列。搜索功能允许研究人员输入一个或多个单词,以便与序列注释匹配。高级搜索功能包括布尔逻辑、正则表达式和将搜索限制在指定注释字段的能力。可以修改“显示深度”来控制层次结构中显示的等级数量。研究人员可以通过选择单个序列或整个分类群从他们的SeqCart中添加或删除序列。

另外还有两个专门的浏览器可用。基因组浏览器组织来自基因组计划的rRNA序列,并提供rRNA拷贝数和基因组大小,以及连接到其他位点托管的其他基因组信息。“发布视图”根据发布组织序列。可以在Hierarchy Browser中显示和选择任何单个发布的序列。

我的RDP是一个基于帐户的工作空间,允许研究人员上传和存储他们的发表前序列。该设备适用于单个序列到数百个组。这些可以是由基因组或宏基因组组装的部分或完整的rRNA序列,也可以是由rRNA基因克隆文库的低容量测序组装的序列。下面描述的RDP扩增子序列管道(RDPipeline)更适合于新的扩增子测序技术,如Illumina MiSeq。序列以序列组的形式上传到我的RDP,并维护这些分组。上传后,自动提交序列进行比对和分类。这些我的然后,可以使用RDP的工具套件将RDP序列与来自RDP集合的序列结合起来进行分析。一个特殊的社交网络功能允许序列组与序列所有者指定的其他研究人员(“研究伙伴”)共享。这个特性对于远程协作特别有用。

序列匹配(SeqMatch)

这是最常用的在线RDP工具之一。它是原始RDP的重新实现。1920.).SeqMatch根据查询和引用序列之间共享的七碱基序列片段(单词)的比例(S_ab分数),找到与查询最接近的RDP序列。SeqMatch在部分和全长序列上工作良好,比BLAST (21)用于识别与查询rRNA序列密切相关的数据库序列。

在线SeqMatch是一个k的最小公共祖先分类子下的每个查询序列kTop与该查询匹配。在详细信息视图中,这些顶部k所有匹配都显示在类似于hierarchy Browser的分类层次结构中。

独立的SeqMatch可以从RDP GitHub存储库中获得。它需要一个输入序列文件,一个引用序列文件和可选的S_ab截止和k价值。输出文件包含以下每一个的信息ktop匹配到一个查询:查询名称、匹配序列ID、方向、S_ab分数和唯一的公共7-mer数。

分类器

RDP分类器快速准确地将序列分配到具有bootstrap值的分类单元中,每个分配的置信度估计值(22).RDP分类器比大多数其他rRNA序列分类方法有几个优点,特别是对于大型高通量测序数据集:高速,内存需求最小,不需要对齐,对部分序列工作良好,可以很容易地用替代分类法或不同的基因进行再训练。在线RDP分类器是预先训练的细菌和古细菌16S和真菌28S rRNA基因序列(参见“分类学”了解更多细节)。细菌和古菌16S训练集自第一次发布以来已经更新了七次,以反映分类学观点的变化。在线工具接受输入查询序列和选择的训练集。结果显示在一个分类层次结构视图中,该视图显示所有分类单元节点以及分配给它们的序列。研究人员可以更改“置信阈值”,以选择适合数据集的截止点。对于部分序列,使用较低的置信度截断已被证明可以增加属级的分类覆盖率,并具有足够的准确性(23).详细视图显示分配给每个分类单元的单个查询。

分类器的当前版本包含了许多在初始版本中没有涉及到的增强功能。自举分配策略已经改变,以避免在自举试验中多个属并列最高分时出现过度预测问题。分类器现在允许多个样本输入。扩展的输出选项包括每个序列的详细分类分配和每个样本的一列输出文件,其中包含每个分类单元的分配计数。后者的格式适用于beta多样性分析和样本排序,其结果与基于操作分类单元(OTU)聚类的方法(24).

命令行分类器(可从RDP GitHub存储库获得)为重新训练提供了广泛的支持,允许研究人员快速测试他们的训练集的一致性,并标记自定义分类法中可能的错误。分类等级没有统一的数量要求,不常见的等级被正确处理。分类速度与属的数量成正比,而不是训练序列的数量。这允许定制具有非常大量序列的训练集。然而,较大的训练集具有不太准确的分配或分类不规则性不一定能很好地工作——测试工具可以帮助验证新的训练集。这些特征使研究人员能够在更广泛的序列上重新训练RDP分类器,包括来自环境演化支的序列(25),在蜜蜂肠道特异性16S rRNA序列(26)和真菌LSU序列(4).

图书馆比较

RDP库比较(22)用于调查一对样本库之间的统计差异。而不是估计样本之间的总体差异,LibCompare提供P确定个体类群丰度差异统计显著性的值。该工具首先使用RDP分类器将序列分配给分类单元。根据分配给每个分类单元的序列丰度,使用两个统计检验中的一个来计算aP值,以确定一个分类单元在两个库中是否以不同的方式表示。

独立的库比较是RDP分类器包的一部分。它生成一个输出,其中包含每个查询的分配细节结果,以及一个由制表符分隔的文件,其中包含按顺序排序的比较结果P价值。每行包含P值、分类单元秩、分类单元名和每个样本的赋值数。

探测器匹配

探针匹配(20.)对序列数据集执行搜索,以匹配输入的寡核苷酸序列(引物)。这个工具实现了一个快速的位向量算法近似子字符串匹配(27).在线探针匹配采用标准IUPAC代码中的引物序列(允许简并碱基)。有一个选项,检查一对引物串联,有效的测试在网上PCR。研究人员选择三种RDP序列集合进行搜索:细菌、古生菌或真菌。研究人员还可以将搜索限制在只包含分子特定区域的序列上。这并没有将搜索限制在该区域,但是通过删除缺少预期目标位点的部分序列,它给出了一个更准确的引物覆盖估计。

独立的Probe Match通用搜索引擎(可从RDP GitHub存储库获得)需要一个输入序列文件和一个或多个引物序列。输入序列可以来自任何基因和任何长度,但引物不得超过64个字符。可以同时使用多个引物,但每个序列只报告最匹配引物的结果。输出文件包含在指定距离内与至少一个引物匹配的序列id和匹配的详细信息。

RDP对准器

RDP为研究人员提供了两种排列序列的方法。任何细菌或古细菌的16S基因序列上传到研究人员的我的RDP帐户自动对齐。研究人员还可以使用RDPipeline网站上的Aligner对细菌和古细菌的16S以及真菌的28S序列进行比对。在线校准器使用相同的Infernal校准模型来处理RDP数据库序列(参见上面的“校准”部分)。对准器已经更新到地狱1.1版。这个版本比RDP release 10使用的前一个版本快7.5倍。因为独立的Infernal并不会检查序列的方向;在线RDP校准器首先检查每个序列的方向,如果需要,在校准之前进行反向补。RDPipeline包含一套工具,用于进一步处理对齐序列集(见下文)。RDP版本11中使用的Infernal 1.1模型,以及RDP版本10中使用的Infernal 0.81模型,都可以从RDP GitHub存储库中获得。

树构建器

Tree Builder从RDP集合中选择的序列构建系统发育树我的任意组合的RDP。此工具使用Weighbor (28)加权邻居连接方法,用Jukes-Cantor校正距离从RDP对齐计算。每个树节点的引导置信度估计值是根据对齐列的100次引导重采样计算的。通常应该包括一个外组序列,以允许树正确地根。生成的树显示在一个Java applet中,该applet允许进行交互式探索操作,例如选择节点和交换分支。这些树可以以标准的Newick格式以及PS/PDF文件格式下载。

任务发生器

赋值生成器为16S rRNA基因分析课程计划提供支持(29).它通过现实的生物信息学练习(独特的序列,常见的研究任务)介绍了比较16S rRNA基因分析,易于管理,分发和评估,使用RDP网站上的工具。教师可以通过指定班级学生人数、每个学生的序列数量和数据集(细菌、细菌和古生菌或医学上重要的细菌)的选择,为整个班级生成一组独特的作业。该工具提供:(i)以一种保留二级结构的方式从RDP序列集合中导出的每个学生的唯一序列集,(ii)为学生描述作业的一组方向,以及(iii)为教师提供每个学生的预期结果的评估键。这个工具已经在500多名学生的班级中使用。

RDPipeline用于高通量扩增子分析

RDPipeline在大型数据集的分类依赖(使用RDP分类器)和分类独立(使用层次聚类)分析中执行几个常见的处理步骤。RDPipeline是一个新的工具套件,旨在取代我们之前的Pyrosequencing Pipeline (30.),提供反映扩增子测序技术和技术最新变化的扩展处理和分析工具。研究人员可以通过以下两种方式之一来利用RDPipeline工具套件中的工具。对于处理适量序列的研究人员,我们提供在线版本的RDPipeline工具。对于参与大容量测序项目的研究人员,或者希望将我们的一些工具合并到他们的本地定制工作流中,我们提供了RDP GitHub存储库上组成RDPipeline的所有工具。

在线RDPipeline集成了对我的RDP账户。所有提交的工作都可以从“我的工作”页面查看。分析结果最多可存储2周,但工作历史记录仍然可用。作业历史记录列出了每个作业的类型、当前状态、提交、开始和完成时间以及提供的处理参数。对于长时间运行的作业,在处理完成时将发送一封包含下载结果的直接链接的电子邮件。所有的RDPipeline工具都接受压缩文件。任何压缩文件都将在上传时展开,所包含的文件将被视为工具的输入。所有的RDPipeline工具都扩展了上传文件的输入验证检查。在处理开始之前,将显示一个摘要,其中显示检测到的文件以及由于意外的文件类型而未使用的任何文件。

“初始处理”准备来自测序设备的原始序列进行分析。这是一个多步骤的过程,包括根据样本标签对原始读数进行排序,修剪标签和引物区域,并去除低质量的序列。输入文件可以是单个文件,也可以是包含多个序列文件的压缩文件。对于成对的端数据,它使用我们的汇编程序(如下所述;图4)来组装重叠的配对读取,作为第一步。我们建议研究人员分析配对端数据时使用read25-27分左右,过滤出低质量的组合读。下载中包含了每个标记的汇总统计信息,包括每个过滤器过滤的序列数量和过滤后的序列长度直方图。

图4。

比较三种配对端读组装工具的基本错误率。错误率是用任意一个读取过滤的组合读取来计算的得分(汇编程序和原始PANDAseq;38)或delta分数(mothur;39)。推荐阅读汇编和基础得分27分分数(deltaq)为6的母亲标记。(一)样品M_20130714和(B)M_20130819示例。

对齐

该工具允许研究人员使用Infernal 1.1使用RDP校准模型一次对准多达1 000 000个细菌/古菌16S或真菌28S序列。所有基因上传的序列都被检查方向,必要时进行反向补全。每个对齐作业结果还包括对齐位置和长度统计信息,以及相对于对齐模型的读取对齐开始和结束位置的汇总直方图。

聚类

完整的链接集群工具(2930.)允许用户上传对齐的序列进行聚类,作为分类独立分析的第一步。可以将序列文件与作为示例的每个文件聚在一起,也可以将文件单独聚在一起。在线集群工具每个作业限制为150000个惟一序列。对于聚类非常大的数据集,我们提供了一个修改版本的mcClust (31)下载(见下文)。这个新版本在计算集群中分配距离计算,并合并了降低时间复杂性和加快集群速度的算法更改。

生态措施

从Clustering或mcClust获得的聚类文件可用于计算样本的五种常见生态测量值。Alpha多样性可以用Shannon或Chao1指数估算,beta多样性可以用Jaccard或Sørensen指数测量。研究人员还可以使用稀疏工具评估测序深度。

音序器运行质量检查

RDPipeline包括两个工具,Defined Community Analysis和Chimera Check,用于评估序列运行的质量(31).后者由UCHIME (9).对于在测序仪运行中包含定义群落样本的研究人员,定义群落分析工具根据定义群落中生物体的已知基因序列计算观察到的错误率。

额外的工具

研究人员可以使用“集群文件格式转换”工具将RDP集群文件转换为OTU表格式,适用于输入R和估值,或BIOM格式(32).“对齐合并”工具允许研究人员合并独立创建的对齐文件。“序列选择器”工具允许研究人员上传一组序列文件和一个包含id列表的单独文件。返回的文件要么只包含指定的序列,要么不包含它们,这取决于所选的选项。“代表性序列选择器”工具允许研究人员上传一个聚类文件,并从每个聚类中检索一个“代表性序列”,定义为与聚类中所有其他序列距离平方和最小的序列。

mcClust增强

分层序列聚类方法在数千个扩增子序列中工作良好,但随着最新测序技术的输出增加,这种方法往往会失败。精确的聚类方法需要输入序列的所有成对距离,因此按O(n2).许多集群实现,除了要求O(n2)计算时间,内存复杂度为O(n2),因为它们将所有距离都存储在内存中。尽管如此,聚类方法仍然是rRNA序列分析的重要工具,一些小组已经尝试解决序列聚类面临的缩放问题。一种方法是采用近似聚类方法,如USEARCH (33)及CD-HIT (34),它们使用启发式来限制计算的成对比较的数量。Loewenstein提出的另一种方法et al。35)主要通过在磁盘上存储距离来限制平均链接集群的内存复杂度。为了利用磁盘存储成对距离,它们必须按顺序排序。对于通用排序算法,这将时间复杂度增加到O(n2日志n2).

以前发表的几个完整的链接算法实现利用磁盘上存储的距离来限制集群的内存需求(313637).这些实现仍然需要所有的成对距离(或者至少所有的成对距离直到最大距离截断),更重要的是需要对所有这些距离进行排序。我们提出了一种距离计算工具,目标是提高距离计算的效率,允许并行化距离矩阵计算,并使用替代排序方法将时间复杂度降低到O(n2)(见补充材料).

距离计算工具是在Java 1.6中实现的,并已作为工具集成到mcClust包中(31)在RDP GitHub存储库上可用。

用于成对端读取的汇编程序

与单链Illumina读取相比,组合成对端读取可以提供更长的序列和更低的错误率。然而,新开发的成对端组装工具存在局限性。我们已经扩展了现有的PANDAseq (38)成对端读取汇编程序。我们修改的PANDAseq(汇编器)使用排序器提供的质量执行修改的统计分析()的分数,以找到最可能的重叠,计算集合读取重叠区域的得分,并处理更复杂的重叠布局(请参阅补充材料详情)。

我们使用来自两次不同MiSeq运行的两个定义的社区样本测试了Assembler。两次运行都通过了Illumina MiSeq质量标准,但这两个样品的基本每基错误率有很大差异(M_20130714样品为0.17%,装配后的M_20130819样品为0.7%)。两者均在配对端MiSeq扩增子数据的报告错误率范围内(0.28-1.08%)(39).使用整体阅读评分质量过滤器去除低质量序列,我们测试汇编器与成对端汇编器和质量过滤器内置到母亲(39),另一个扩增子分析程序。汇编程序在高质量数据集(图4A),并且在平均质量数据集(图4B).在两个数据集中,当以类似的方式得分时,Assembler的表现优于原始的PANDAseq(尽管如此基于分数的过滤并不是该实现的目标)。使用读取27分可以将M_20130714和M_20130819的错误率分别降低到0.05%和0.16%,并且可以有效地选择性地去除错误数较高的读(补充图S3).汇编程序集成到初始处理中,可在RDP GitHub存储库中使用。

这三个程序都可以使用多线程运行,但在我们的测试中被限制为单个线程。在AMD Opteron 8384四核2.7 GHz处理器上,Assembler花了1.4小时从MiSeq运行中组装超过1600万次读取。最初的PANDAseq花了20分钟,而母亲花了21.3小时在同一系统上使用其推荐的分析协议组装同一组数据。

用户支持

RDP的任务包括用户支持。每个RDP在线工具都提供了一个帮助页面,作为其功能、算法和操作方法的快速参考。RDP Wiki提供了一个更新的可搜索存储库,用于对常见问题的回答,这些问题是由用户以前与RDP工作人员的通信编译而成的。工作流教程指导研究人员完成常见的面向任务的流程,提供样本数据,并向研究人员介绍NGS数据分析的最佳实践。对于命令行工具,RDP GitHub存储库中提供了分步说明和示例数据文件。支持问题可以通过电子邮件发送到rdpstaff@msu.edu.电话支持(+1 517 432 4998)。

支持数据的可用性

本研究的序列数据已提交给ENA Short Read Archive (http://www.ebi.ac.uk/ena/)。PRJEB4878。

资金

美国能源部科学办公室(生物与环境研究)[DE-FG02-99ER62848]。科学办公室(生物与环境研究)、美国能源部[DE-SC0004601]和生物能源中心[DE-FC02-07ER64494]提供了额外的支持;美国国家环境卫生科学研究所超级基金研究计划[P42 ES004911];美国国家科学基金会[DBI-0328255];美国农业部国家粮食和农业研究所国家研究计划[2008-35107-04542];国家卫生研究所研究项目[U01 HL098961]和人体微生物组项目示范项目[UH3 DK083993]。开放获取收费的资金来源:188滚球软件美国能源部。

利益冲突声明。没有宣布。

确认

我们感谢Gareth W. Griffith提供的真菌LSU训练数据,为新光生菌门。我们感谢一些人过去的贡献:Robin Gutell(和他的同事),Ryan Farris, Sidique Kulam, Adithya M. Bandela, Chuck Parker, Paul Saxman, Bonnie Maidak, Tim Lilburn, Niels Larsen, George Garrity, Tom Macke, Michael J. McCaughey, Ross Overbeek, Sakti Pramanik, Scott Dawson, Mitch L. Sogin和Gary Olsen。我们将这份出版物献给卡尔·沃斯,他的洞察力使这项工作成为可能。

参考文献

1
Neefs
JM
范德皮尔
Y
De Rijk
P
薛潘
年代
德华赫特
R
小核糖体亚基RNA结构的编译
核酸测定。
1993
,卷。
21
(pg。
3025
-
3049
2
Guadet
J
朱利安
J
Lafay
摩根富林明
Brygoo
Y
一些的系统发育镰刀菌素物种,由大亚基rRNA序列比较确定
摩尔。杂志。另一个星球。
1989
,卷。
6
(pg。
227
-
242
3.
Schnare
Damberger
上海
灰色的
兆瓦
Gutell
RR
真核细胞质大亚基(23s样)核糖体RNA结构特征的综合比较
J. Mol.生物学。
1996
,卷。
256
(pg。
701
-
719
4
K-L
Porras-Alfaro
一个
Kuske
CR
Eichorst
年代
G
真菌大亚基rRNA基因的准确、快速分类
达成。环绕。Microbiol。
2012
,卷。
78
(pg。
1523
-
1533
5
中村
Y
科克伦
G
Karsch-Mizrachi
国际核苷酸序列数据库合作
国际核苷酸序列数据库合作组织
核酸测定。
2013
,卷。
41
(pg。
D21
-
D24
6
科克伦
G
Alako
B
C
鲍尔
l
Cerdeno-Tarraga
一个
克莱兰德
吉布森
R
Goodgame
N
张成泽
年代
等。
面对欧洲核苷酸档案的增长
核酸测定。
2013
,卷。
41
(pg。
D30
-
D35
7
Yilmaz
P
Kottmann
R
D
骑士
R
科尔
Amaral-Zettler
l
吉尔伯特
晶澳
Karsch-Mizrachi
约翰斯顿
一个
科克伦
G
等。
关于标记基因序列(MIMARKS)的最小信息和关于任何(x)序列(MIxS)规格的最小信息
生物科技Nat。》。
2011
,卷。
29
(pg。
415
-
420
8
NCBI资源协调器
国家生物技术信息中心的数据库资源
核酸测定。
2013
,卷。
41
(pg。
D8
-
D20开头
9
埃德加
钢筋混凝土
哈斯
BJ
克莱门特
JC
贴梗海棠
C
骑士
R
UCHIME提高了嵌合体检测的灵敏度和速度
生物信息学
2011
,卷。
27
(pg。
2194
-
2200
10
Federhen
年代
NCBI分类法数据库
核酸测定。
2012
,卷。
40
(pg。
D136
-
D143
11
巴雷特
T
克拉克
K
沃拉
R
Gorelenkov
V
Gribov
E
Karsch-Mizrachi
Kimelman
普瑞特
KD
Resenchuk
年代
Tatusova
T
等。
NCBI的生物项目和生物样本数据库:促进元数据的捕获和组织
核酸测定。
2012
,卷。
40
(pg。
D57
-
D63
12
Nawrocki
EP
艾迪
Infernal 1.1: RNA同源性搜索速度快100倍
生物信息学
2013
,卷。
29
(pg。
2933
-
3935
13
Cannone
JJ
萨勃拉曼尼亚
年代
Schnare
Collett
D’索萨
LM
Y
B
N
Madabusi
LV
穆勒
公里
等。
比较RNA网站(CRW):核糖体、内含子和其他RNA比较序列和结构信息的在线数据库
BMC生物信息学
2002
,卷。
3.
pg。
2
14
休斯
SM
韦尔奇
DM
莫里森
HG
Sogin
毫升
通过改进的OTU聚类解决稀有生物圈中的皱纹
环绕。Microbiol。
2010
,卷。
12
(pg。
1889
-
1898
15
Sogin
毫升
莫里森
HG
休伯
晶澳
马克•韦尔奇
D
休斯
SM
尼尔
公关
的实习
JM
Herndl
GJ
深海微生物多样性和未开发的“稀有生物圈”
国家科学院学报美国
2006
,卷。
103
(pg。
12115
-
12120
16
组成部分
一个
具有命名法地位的原核生物名称列表
核酸测定。
2014
,卷。
42
(pg。
D613
-
D616
17
穆尼奥斯
R
Yarza
P
路德维希
W
Euzeby
J
阿曼
R
Schleifer
KH
Glockner
Rossello-Mora
R
释放所有物种活树的LTPs104
系统。达成。Microbiol。
2011
,卷。
34
(pg。
169
-
170
18
Stackebrandt
E
埃伯斯
J
重新审视分类参数:失去光泽的黄金标准
Microbiol。今天
2006
,卷。
33
(pg。
152
-
155
19
拉森
N
奥尔森
GJ
Maidak
提单
McCaughey
乔丹
Overbeek
R
Macke
TJ
沼泽
TL
伍斯
CR
核糖体数据库项目
核酸测定。
1993
,卷。
21
(pg。
3021
-
3023
20.
科尔
B
法里斯
RJ
Kulam
SA
McGarrell
DM
嘉里蒂
通用汽车
Tiedje
JM
核糖体数据库项目(RDP-II):高通量rRNA分析的序列和工具
核酸测定。
2005
,卷。
33
(pg。
D294
-
D296
21
Altschul
科幻小说
马登
TL
谢弗
AA
J
Z
米勒
W
Lipman
DJ
gapping BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序
核酸测定。
1997
,卷。
25
(pg。
3389
-
3402
22
嘉里蒂
通用汽车
Tiedje
JM
科尔
Naïve贝叶斯分类器用于快速分配rRNA序列到新的细菌分类学
达成。环绕。Microbiol。
2007
,卷。
73
(pg。
5261
-
5267
23
Claesson
乔丹
奥沙利文
O
Nikkila
J
Marchesi
Smidt
H
德沃斯
WM
罗斯
RP
奥图尔
PW
焦磷酸测序和系统发育微阵列用于探索人类远端肠道微生物群落结构的比较分析
《公共科学图书馆•综合》
2009
,卷。
4
pg。
e6669
24
WJ
科尔
耶稣
电子商务
法里斯
RJ
晶澳
Tiedje
JM
通过独立于序列比对和聚类的分类学监督分析进行细菌群落比较
国家科学院学报美国
2011
,卷。
108
(pg。
14637
-
14642
25
沃纳
JJ
科伦
O
Hugenholtz
P
DeSantis
TZ
沃尔特斯
佤邦
Caporaso
Angenent
LT
骑士
R
莱伊
再保险
训练集对高通量细菌16s rRNA基因调查分类的影响
ISME J。
2012
,卷。
6
(pg。
94
-
103
26
牛顿
伊尔
Roeselers
G
训练集对使用Naïve贝叶斯分类器分类蜜蜂肠道菌群的影响
BMC Microbiol。
2012
,卷。
12
pg。
221
27
迈尔斯
G
一种基于动态规划的快速位向量近似字符串匹配算法
j . ACM
1999
,卷。
46
(pg。
1
-
13
28
布鲁诺
WJ
Socci
ND
Halpern
艾尔
加权邻居连接:基于概率的距离系统发育重建方法
摩尔。杂志。另一个星球。
2000
,卷。
17
(pg。
189
-
197
29
科尔
Cardenas
E
J
B
法里斯
RJ
Kulam-Syed-Mohideen
作为
McGarrell
DM
沼泽
TL
嘉里蒂
通用汽车
等。
核糖体数据库项目:改进的比对和rRNA分析的新工具
核酸测定。
2009
,卷。
37
(pg。
D141
-
D145
30.
科尔
B
Tiedje
JM
de Bruijn
FJ
核糖体数据库项目:用于高通量rRNA分析的序列和软件
分子微生物生态学手册I:宏基因组学和互补方法
2011
新泽西州霍博肯,
J. Wiley & Sons公司
(pg。
313
-
324
31
晶澳
B
雅尼
年代
棕色(的)
CT
Tiedje
JM
科尔
FunGene:功能基因管道和库
前面。恐怖分子。Microbiol。
2013
,卷。
4
pg。
291
32
麦当劳
D
克莱门特
JC
Kuczynski
J
赖德奥特
Stombaugh
J
Wendel的
D
Wilke
一个
休斯
年代
Hufnagle
J
迈耶
F
等。
生物观察矩阵(BIOM)格式或者:我如何学会停止担忧,爱上某物
GigaScience
2012
,卷。
1
pg。
7
33
埃德加
钢筋混凝土
搜索和聚类速度比BLAST快几个数量级
生物信息学
2010
,卷。
26
(pg。
2460
-
2461
34
l
妞妞
B
Z
年代
W
CD-HIT:加速下一代测序数据聚类
生物信息学
2012
,卷。
28
(pg。
3150
-
3152
35
Loewenstein
Y
Portugaly
E
Linial
大规模数据集精确分层聚类的高效算法:处理整个蛋白质空间
生物信息学
2008
,卷。
24
(pg。
i41
-
i49
36
太阳
Y
Y
l
F
法雷尔
毫升
McKendree
W
Farmerie
W
ESPRIT:利用大量16S rRNA焦核糖核酸序列估算物种丰富度
核酸测定。
2009
,卷。
37
pg。
e76
37
城堡
PD
威斯克
SL
Ryabin
T
大厅
哈特曼
霍利斯特
海尔哥哥
Lesniewski
类风湿性关节炎
奥克利眼镜
BB
公园
DH
罗宾逊
CJ
等。
介绍mother:开源、平台独立、社区支持的软件,用于描述和比较微生物群落
达成。环绕。Microbiol。
2009
,卷。
75
(pg。
7537
-
7541
38
Masella
美联社
巴特拉姆
正义与发展党
Truszkowski
JM
棕色(的)
DG
这本书
JD
PANDAseq: illumina序列的成对端汇编器
BMC生物信息学
2012
,卷。
13
pg。
31
39
Kozich
JJ
威斯克
SL
巴克斯特
NT
苏格兰高地的人
SK
城堡
PD
开发了用于分析MiSeq Illumina测序平台上扩增子序列数据的双指标测序策略和管理管道
达成。环绕。Microbiol。
2013
,卷。
79
(pg。
5112
-
5120
这是一篇基于创作共用署188滚球软件名许可(http://creativecommons.org/licenses/by/3.0/)条款发布的开放获取文章,允许在任何媒介上不受限制地重用、分发和复制,前提是正确引用了原始作品。

补充数据

评论

0评论
提交评论
您输入的代码无效
感谢您对本文的评论。您的评论将由杂志自行审查和发表。请通过电子邮件查看进一步通知。