跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主要导航
2013年1月1;29(1):15至21。
DOI:10.1093 / Bioinformatics / BTS635。 2012年10月25日。

明星:超快通用RNA-SEQ对齐器

从属关系
免费的PMC的文章

明星:超快通用RNA-SEQ对齐器

Alexander Dobin.et al。 生物信息学
免费的PMC的文章

摘要

动机:由于非连续的转录结构,相对短的读取长度,并且不断提高测序技术的吞吐量,精确对准高吞吐量RNA-SEQ数据是一个具有挑战性和尚未解决的问题。目前可用的RNA-SEQ对齐器遭受高映射误差速率,低映射速度,读取长度限制和映射偏差。

结果:为了对齐我们的大型(> 800亿reads) ENCODE转录组RNA-seq数据集,我们基于之前未描述的RNA-seq对齐算法开发了Spliced Transcripts Alignment To a Reference (STAR)软件,该算法在未压缩后缀数组中使用连续最大可映射的种子搜索,然后进行种子聚类和拼接过程。STAR在定位速度上比其他比对器高出>50倍,在中等的12核服务器上每小时对5.5亿2 × 76 bp配对的人类基因组进行比对,同时提高比对灵敏度和精度。除了对典型连接进行无偏性从头检测外,STAR还可以发现非典型剪接和嵌合(融合)转录本,并能够绘制全长RNA序列。利用罗氏454测序的逆转录聚合酶链反应扩增子,我们实验验证了1960年新的基因间剪接连接,成功率为80-90%,证实了STAR定位策略的高精度。

可用性和实施​​:Star以独立的C ++代码实现。Star是在GPLv3许可下分发的免费开源软件,可以从http://code.google.com/p/rna-star/下载。

图1所示。
图1所示。
用于检测的STAR算法中最大可映射前缀搜索的示意图表示(一种)剪接结,(B.)不匹配和(C)的尾巴
图2所示。
图2所示。
对于STAR,TOPHAT2,GSNAP,RUM和MAPSPLICE的模拟RNA-SEQ数据的真正阳性率与假阳性率(ROC-CURVE)
图3。
图3。
在实验RNA-seq数据中检测剪接连接的各种准确性指标。所有地图的颜色编码方案都是一样的。X-坐标轴(一种),(B.),(D.) 和 (E.)是定义的检测阈值,定义为在每个结映射的读数的数量,即每个点X-的价值N表示至少支持的所有连接N读取由给定的对齐器映射。(a)检测到的连接的总数,注释(实线)和未经发布的(虚线);(b)注释的检测连接的百分比;(C)伪ROC曲线:检测到的所有注释连接的百分比与未经发布的检测连接百分比;(d)由至少两个映射器(实线)检测到的未解式的连接数和仅由一个映射器(虚线)检测到的未检测到的未经发布的结的数量;(e)仅由一个映射器和仅检测到的未检测到的未检测到的未定位连接的百分比(F)伪ROC曲线:由至少两个映射器检测的未检测到的未检测到的未检测到的未经识别连接的百分比百分比,仅由一个映射器检测到

类似的文章

  • Mapping RNA-seq Reads with STAR。
    Dobin A,Gingeras Tr。 等。 Curr Protoc生物信息学。2015年9月3日; 51:11.14.1-11.14.19。DOI:10.1002 / 0471250953.bi1114s51。 Curr Protoc生物信息学。2015年。 PMID:26334920 免费PMC文章。 审查。
  • 优化RNA-SEQ镶边与明星。
    Dobin A,Gingeras Tr。 等。 方法:中国生物医学杂志2016;1415:245-62。doi: 10.1007 / 978 - 1 - 4939 - 3572 - 7 - _13。 方法Mol Biol。2016年。 PMID:27115637
  • Supersplat——拼接RNA-seq对齐。
    Bryant DW JR,Shen R,Priest HD,Wong WK,Mockler Tc。 Bryant DW JR等人。 生物信息学。2010年6月15日; 26(12):1500-5。DOI:10.1093 / Bioinformatics / BTQ206。EPUB 2010年4月21日。 生物信息学。2010年。 PMID:20410051 免费PMC文章。
  • RNA-Seq比对算法与RNA-Seq统一图谱(RUM)的比较分析。
    Grant GR, Farkas MH, Pizarro AD, Lahens NF, Schug J, Brunk BP, Stoeckert CJ, Hogenesch JB, Pierce EA。 格兰特Gr,等。 生物信息学。2011年9月15日; 27(18):2518-28。DOI:10.1093 / Bioinformatics / BTR427。EPUB 2011年7月19日。 生物信息学。2011年。 PMID:21775302 免费PMC文章。
  • 映射RNA-SEQ基于学习哈希方法有效地读取转录om。
    余旭,刘旭。 余晓东,等。 Comput Biol Med. 2020 Jan;116:103539。doi: 10.1016 / j.compbiomed.2019.103539。2019年11月13日。 计算Biol Med。2020。 PMID:31765913 审查。

引用的10117年文章

出版类型

网格计算

相关数据