跳到主页内容
美国国旗

美国政府的官方网站

点政府

gov意味着它的官员。
联邦政府网站经常在gov或mil。共享敏感信息之前,确保你在一个联邦政府网站。

Https

这个网站是安全的。
https://确保你连接到官方网站,您提供的任何信息是加密和传输安全。

访问键 NCBI主页 MyNCBI主页 主要内容 主导航

建模连锁不平衡增加多基因风险评分的准确性

Bjarni J Vilhjalmssonet al。 是J哼麝猫
免费的PMC的文章

文摘

多基因风险评分显示巨大的希望在预测复杂的疾病风险,随着训练样本大小的增加将变得更加准确。标准方法计算风险评分包括连锁不平衡(LD)的标记修剪和p值阈值应用到协会统计数据,但这丢弃信息和可以减少预测的准确性。我们介绍中将,方法推断后意味着每一个标记的效果使用之前的影响大小和LD信息从外部参考面板。理论和模拟显示,中将优于修剪其次是阈值的方法,特别是在大样本大小。因此,预测R(2)从20.1%上升到25.3%精神分裂症在大型数据集,从9.8%到12.0%在大型数据集多发性硬化症。类似的精度相对提高观察三个额外的大型疾病样本数据集和非欧洲的精神分裂症。中将在现有方法的优势会随着样本量的增加。

数据

图1
图1
预测精度的P + T用于模拟基因型和没有LD P + T)的性能,基于LD-pruned prs单核苷酸多态性(r 2< 0.2)其次是p值的阈值优化的阈值,当应用于模拟基因型有或没有有限的预测准确性,以平方关系真正的表型和prs(预测R 2),是策划作为训练样本大小的函数。模拟结果平均超过1000和200000个模拟基因型特征,分数的因果变异p被允许不同。在(A),模拟基因型是链接。在(B),模拟基因型有关;我们模拟独立批100标记而修复平方相邻的变量之间的相关性在一批0.9。
图2
图2
比较四种预测方法应用于模拟特征预测精度表S1中列出的四种不同的方法应用于模拟特征时WTCCC基因型。四个subfigures对应p= 1 (A),p= 0.1 (B),p= 0.01 (C)p= 0.001 (D)模拟分数的因果标记(非零)效果大小从高斯分布采样。援助的解释结果,我们绘制精度对有效样本大小,定义为 N eff = ( N / sim卡 ) ,在那里N= 10786是训练样本的大小,M =376901是单核苷酸多态性的总数 sim卡 是实际使用的snp数量在每个仿真:376901(所有染色体),112185(染色体1 - 4),61689(染色体1和2),和30004年(染色体1)。有效样本量样本大小,保持相同的吗N/比如果都使用单核苷酸多态性。
图3
图3
比较的方法应用于七WTCCC疾病数据集不同方法的预测精度估计从5倍交叉验证七WTCCC疾病数据集:1型糖尿病(近年来),类风湿性关节炎(RA)、克罗恩病(CD)、双相情感障碍(BD), 2型糖尿病(T2D)、高血压(HT)和冠状动脉疾病(CAD)。Nagelkerke预测R 2在y轴上显示其他指标(见表S2)。中将显著提高预测精度的几种疾病近年来,风湿性关节炎,CD(见正文)。
图4
图4
比较的方法训练大GWAS汇总统计数据显示了五个不同的疾病预测精度为五个不同的疾病:精神分裂症(SCZ),多发性硬化症(MS)、乳腺癌(BC), 2型糖尿病(T2D)和冠状动脉疾病(CAD)。风险分数训练大GWAS摘要统计信息数据集,用于预测疾病风险的独立验证数据集。Nagelkerke预测R 2在y轴上显示其他指标(见表S5)。相比LD修剪+阈值(P + T),中将提高了预测R 211% -25%。SCZ SCZ-MGS验证的结果显示队列用于最近的研究,但也中将产生很大的改善独立SCZ-ISC验证队列(表S5)。

类似的文章

引用的

发布类型

网格计算