跳转到主页内容
美国国旗

美国政府的官方网站

点政府

gov表示它是官方的。
联邦政府网站通常以。gov或。mil结尾。在分享敏感信息之前,确保你是在联邦政府网站上。

Https

站点安全。
https://确保您连接到官方网站,并且您提供的任何信息都经过加密和安全传输。

访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2007年8月6日;8:290。
doi: 10.1186 / 1471-2105-8-290。

非加权基因集富集分析显著性得分的计算

从属关系
免费PMC文章

非加权基因集富集分析显著性得分的计算

安德烈亚斯·凯勒et al。 BMC生物信息学
免费PMC文章

摘要

背景:基因集富集分析(Gene Set Enrichment Analysis, GSEA)是一种对基因或蛋白质排序列表进行统计评估的计算方法。最初GSEA是为了解释微阵列基因表达数据而开发的,但它可以应用于任何排序的基因列表。给定基因列表和任意的生物类别,GSEA评估所考虑类别的基因是否随机分布或累积在列表的顶部或底部。通常,GSEA的显著性得分(p值)是通过非参数排列检验计算的,这是一个耗时的过程,只产生p值的估计值。

结果:提出了一种新的动态规划算法,用于计算非加权基因集富集分析的精确显著性值。我们的算法避免了非参数排列检验的典型问题,因为随机抽样程序导致不同运行的不同结果。该动态规划算法的另一个优点是其运行时间和内存效率。为了测试我们的算法,我们不仅将其应用于模拟数据集,而且还评估了鳞状细胞肺癌组织和自体未受影响组织的表达谱。

数据

图1
图1
可能运行和统计信息的示例。该图显示了8个基因的有序列表的所有可能的运行和统计,其中4个属于一个功能类别。红色标记的运行和统计数据有一个RS C值为12,对应的p值为 1 54 70 0.229 MathType@MTEF@5@5@ + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqaIXaqmcqGHsisldaWcaaqaaiabiwda1iabisda0aqaaiabiEda3iabicdaWaaacqGH9aqpcqaIWaamcqGGUaGlcqaIYaGmcqaIYaGmcqaI5aqoaaa@382D@ 。x轴上的数字表示当前步骤中可能运行的和值的索引和数目。
图2
图2
p值作为排列检验数的函数。对于每个排列测试的数量,我们进行了100次运行。该图显示了这些运行的平均值以及各自的标准偏差。虚线表示100个计算p值的最大值和最小值。
图3
图3
动态规划矩阵。该图显示了图1中提供的示例的动态规划矩阵。不等于零的矩阵项用阴影表示。黄色矩阵项不需要计算,由于扩展的边约束,运行和统计数据的数量具有较小的偏差为零(RS C值)比12等于54。
图4
图4
运行时间作为显著性值的函数。答:对于1000个基因的排序列表和包含100个基因的类别,我们的算法的运行时间是针对一组离散的p值(0,0.003,0.006,…,0.996,1)计算的。所显示的运行时间是标准2 GHz PC上每个p值100次运行的中位数。计算完整矩阵的最大运行时间为0.05秒。一个朴素的排列测试程序大约需要0.7秒进行1000个排列。B:运行时间作为小p值显著性值的函数。

类似的文章

引用的

参考文献

    1. Mootha V, Lindgren C, Eriksson K, Subramanian A, Sihag S, Lehar J, Puigserver P, Carlsson E, Ridderstrale M, Laurila E, Houstis N, Daly M, Patterson N, Mesirov J, Golub T, Tamayo P, Spiegelman B, Lander E, Hirschhorn J, Altshuler D, Groop l。Nat Genet, 2003; 34:27 7 - 73。doi: 10.1038 / ng1180。-DOI-PubMed
    1. 兰姆J, Ramaswamy S, Ford H, Contreras B, Martinez R, Kittrell F, Zahnow C, N P, TR G, Ewen M. Cyclin D1在人类癌症基因表达模式中的作用机制。细胞。2003;114:323-32。doi: 10.1016 / s0092 - 8674(03) 00570 - 1。-DOI-PubMed
    1. 蒋震,蒋锐。基因集富集的扩展。生物信息学。2007;23:306-13。doi: 10.1093 /生物信息学/ btl599。-DOI-PubMed
    1. Rubin E.规避富集分析的截止点。生物信息,2006;7:202-3。doi: 10.1093 /龙头/ bbl013。-DOI-PubMed
    1. 李,李,李建平,李建平,李建平。基因表达数据集的功能分析工具。BMC生物信息学,2005;9:269。doi: 10.1186 / 1471-2105-6-269。-DOI-PMC-PubMed

发布类型

网格计算

物质

LinkOut -更多的资源