适用于医疗保健专业人员

分析评价证据质量和推荐的强度

什么是“证据质量”?为什么它对临床医生很重要?

BMJ2008336doi:https://doi.org/10.1136/bmj.39490.551019.BE(2008年5月1日出版)引用如下:BMJ336:995 2008;
  1. Gordon H Guyatt教授,1,
  2. 安德鲁·D·奥克斯曼,研究员2,
  3. Regina昆兹,副教授3.,
  4. Gunn E Vist,研究员2,
  5. Yngve Falck-Ytter,助理教授4,
  6. 霍尔格Schünemann,副教授5
  7. 为GRADE工作小组
  1. 1麦克马斯特大学临床流行病学和生物统计学系,汉密尔顿,ON,加拿大L8N 3Z5
  2. 2挪威卫生服务知识中心,邮政信箱7004,圣奥拉夫斯普拉斯,挪威奥斯陆0130
  3. 3.巴塞尔大学医院巴塞尔临床流行病学研究所,瑞士巴塞尔Hebelstrasse 10, 4031
  4. 4美国凯斯西储大学医学中心消化病学科,克利夫兰,OH 44106
  5. 5流行病学部,CLARITY研究组,意大利国家癌症研究所Regina Elena,意大利罗马
  1. 收件人:G H Guyatt, CLARITY研究组,临床流行病学和生物统计学部,2C12室,1200 Main Street West Hamilton, ON, Canada L8N 3Z5guyatt在{}mcmaster.ca

指南开发者使用各种令人眼花缭乱的系统来评估其建议背后的证据质量。有些很简单,有些很混乱,还有一些很复杂

2004年,建议分级评估、发展和评估(GRADE)工作组提出了患者管理的初步建议。1本系列文章共五篇,重点介绍GRADE制定和提出建议的方法,本文为第二篇,我们将展示GRADE如何在以前的系统基础上创建一个高度结构化、透明和信息丰富的证据质量评级系统。

总结分

  • 指南的制定应包括一个明确的问题,详细说明对患者重要的所有结果

  • GRADE提供了四个证据质量等级:高、中等、低和极低

  • 随机试验作为高质量的证据开始,而观察性研究作为低质量的证据开始

  • 由于研究设计或实施的局限性、估计的不精确(宽置信区间)、结果的可变性、证据的间接性或发表偏倚,质量可能会降低

  • 质量的提升可能是因为一个非常大的效应量,剂量-反应梯度,如果所有貌似合理的偏差都会降低明显的治疗效果

  • 关键结果决定证据的整体质量

  • 证据概要提供简单、透明的摘要

指导方针的提法应该包括一个明确的问题

任何涉及临床管理的问题都有四个组成部分:患者、干预、比较和感兴趣的结果。2例如,考虑以下情况:在接受手术的胰腺癌患者中,与标准的广泛肿瘤切除术(惠普尔手术的变化)相比,保留幽门的改良切除术对短期和长期死亡率、输血、胆汁漏、住院时间和胃排空问题有什么影响?

也许在制定这个问题时最常见的错误是没有包括所有对患者重要的结果。3.例如,批评人士指出,在随机试验中,副作用和毒性的测量不充分,4567这一限制也适用于证据摘要。指南制定者可能过度相信替代结果,如运动能力而不是生活质量,或骨密度而不是骨折率。在惠普尔手术的例子中,关注失血量或手术时间而不是输血和住院时间将代表这种限制。

未能充分考虑所有相关替代方案是治疗建议中的另一个潜在问题。当指南针对全球受众时,这可能尤其成问题;在这种情况下,充分考虑成本较低的替代方案变得尤为重要。

指南开发人员应该强调其结果的重要性

最终,那些提出建议的人必须权衡不同管理策略的利弊。GRADE不仅要求指南制定者在开始指南制定过程时明确所有对患者重要的结果,而且要求他们将对决策至关重要的结果与那些重要但不重要的结果和那些不重要的结果区分开来。因为专家、临床医生和患者可能有不同的价值观和偏好,8只要公众代表的选择避免利益冲突,受决策影响的人——病人或公众成员——的投入可能会加强这一过程。9尽管对相对重要性决策的最佳策略的探索仍然有限,但使决策过程透明的可取性是毋庸置疑的。

图1对肾衰竭患者使用降磷药物的影响,提出了患者重要结果的等级。GRADE建议用9分制来判断重要性。7到9是评分表的上端,表示非常重要的结果。4到6分代表的结果很重要,但对决策并不关键。1到3的评分对决策的重要性有限。指导方针小组应该努力实现这个例子所代表的那种明确的方法。

判断证据的质量需要考虑上下文

临床医生对确定证据质量的重要性有一种直观的感觉。高质量证据的推论明显强于低质量证据。GRADE将证据质量分为四个等级:高、中、低和极低。这些水平意味着对治疗效果估计的置信度的梯度,因此推论强度的梯度。

GRADE为提出建议的证据质量提供了一个具体的定义。证据的质量反映了对效果估计的可信度足以支持特定建议的程度。这个定义有两个重要的含义。首先,准则小组必须根据其使用证据的具体背景对证据的质量作出判断。其次,因为系统评价不会——或者至少不应该——提出建议,它们需要一个不同的定义。在这种情况下,证据的质量反映了对效果估计正确的信心程度。

下面的示例说明了指南开发人员必须如何在其特定建议的上下文中对质量做出判断。请记住,因为质量与我们对收益和风险估计的信心有关,缺乏精度(宽置信区间)是降低证据质量的一个因素。

让我们假设,对预防严重中风的疗法的随机试验进行的系统回顾得出,在一年的治疗中,中风的绝对减少率为1.3%,95%置信区间为0.6%至2.0%(图2)).这意味着77名患者必须接受一年的治疗才能预防一次严重中风。需要治疗的人数(NNT)的95%置信区间是50到167,这意味着尽管77是最好的估计,但为了预防一次严重中风,可能需要治疗一年的人少则50,多则167。

">Figure2

图2不精确降级:阈值是关键(处理所需的阈值数目(NNT)为200不需要降级,而阈值为100的相同结果则需要降级)

让我们假设这种干预是一种没有严重不良反应、不便最小、费用适中的药物。在这种情况下,如果能减少0.5%的中风,我们可能会热情地推荐这种干预(图2中的蓝线)) -这意味着NNT=200。治疗效果的置信区间排除了这么小的好处。因此,我们可以得出这样的结论:精确程度(以及证据的质量)足以支持强烈的干预建议。

然而,如果治疗与严重的毒性和更高的成本有关呢?在这种情况下,我们可能不愿意推荐治疗,除非中风的绝对减少至少1% (NNT=100;图2中的红色虚线).结果未能排除明显低于1%的绝对收益。在这种情况下,精确性(以及证据的质量)不足以支持强烈的治疗建议。本例中选择的阈值与患者价值和偏好的实证探索相一致。10

总之,当优点和缺点紧密平衡时,可能需要更高的精确度来支持建议。因此,当这种微妙的平衡存在时,指南开发者更有可能需要降低证据的不精确性。

这个例子说明,当证据质量足够高时,虽然判断不是任意的,但它们在很大程度上依赖于潜在的价值观和偏好。11因此,指南开发人员在做出此类决定和提供理由时都必须是透明的。在这样做的过程中,他们会发现专门考虑GRADE已经确定的质量评估领域是有用的。12

决定证据质量的因素

可能降低证据质量的因素
  • 研究的局限性

  • 结果不一致

  • 证据的间接性

  • 不精确

  • 发表偏倚

这些因素可能会提高证据的质量
  • 影响幅度大

  • 看似合理的混淆,这将降低演示效果

  • 剂量反应梯度

研究设计在确定证据质量方面很重要

早期的证据质量分级系统几乎完全集中在研究设计上。13研究设计仍然是判断证据质量的关键。对于解决替代治疗策略的建议——相对于确定预后或诊断测试的准确性问题——随机试验通常比观察性研究提供更有力的证据。严格的观察性研究比未控制的病例系列提供了更有力的证据。在证据质量的GRADE方法中,没有重要限制的随机试验构成高质量证据。没有特殊优势或重要局限性的观察性研究是低质量的证据。然而,限制或特殊力量可以改变证据的质量。

有五个限制会降低证据的质量

GRADE方法涉及对每个患者重要结果的证据质量进行单独评级,并确定可能降低证据质量的五个因素(见方框)。这些局限性会降低观察性研究和随机对照试验的质量。

研究的局限性

如果研究存在重大局限性,可能会使其对治疗效果的估计产生偏差,那么对建议的信心就会降低。14这些限制包括缺乏分配隐藏性;缺乏盲法,特别是如果结果是主观的,其评估很容易产生偏见;后续损失大;未能坚持意图对待分析;尽早停止工作15;或选择性报告结果(通常不报告那些未观察到影响的结果)。例如,一项随机试验表明,丹纳aparoid钠对肝素诱导的血小板减少症合并血栓形成有好处。16然而,该试验是无盲的,关键结果是临床医生对血栓栓塞何时消失的评估,这是一种主观判断。

大多数检查标准与改良惠普尔手术相对影响的随机试验,都受到以下因素的限制:缺乏最佳隐藏性、缺乏可能的致盲患者和结果判定者,以及对随访的重大损失。因此,每个重要结果的证据质量不高于中等(表1)).

表1

Karanicolas等人对在住院医院进行的保留幽门与标准Whipple胰十二指肠切除术治疗胰腺癌或壶腹周围癌的随机对照试验进行系统回顾和meta分析,得出手术替代方案对胰腺癌影响的GRADE证据概要19

查看该表:

不一致的结果

不同研究对治疗效果的估计差异很大(结果的异质性或变异性),这表明潜在治疗效果存在真正的差异。变异可能源于人群的差异(例如,药物在病情较重的人群中可能有较大的相对效果)、干预措施(例如,较高药物剂量的效果较大)或结果(例如,治疗效果随时间递减)。当异质性存在,但研究人员未能找到一个合理的解释,那么证据的质量就会下降。

例如,Whipple手术替代方法的随机试验对胃排空的影响产生了差异很大的估计,从而进一步降低了证据的质量(图3)).

">图3

图3保留幽门胰十二指肠切除术与标准Whipple手术治疗胰腺癌对延迟胃排空的影响

证据的间接性

指南开发者面临两种证据的间接性。第一种情况发生时,例如,考虑使用两种活性药物中的一种。虽然可能无法对药物进行随机比较,但随机试验可能已经将其中一种药物与安慰剂进行了比较,另一种与安慰剂进行了比较。这样的试验可以间接比较两种药物的疗效大小。这种证据的质量低于两种药物的直接比较。

越来越多的建议必须同时处理多种干预措施。例如,心肌梗死患者可能的溶栓方法包括链激酶、阿替普酶、瑞替普酶和替替普酶。试图处理多重干预不可避免地涉及间接比较。最近开发的各种统计方法可能有助于估计多种干预措施的相对有效性。17它们的可靠应用,除了来自间接比较的证据外,还需要来自直接比较的实质性证据——而这些证据往往是无法获得的。17

第二种类型的间接性包括人群、干预、干预的比较者、感兴趣的结果之间的差异,以及相关研究中包含的差异。表2给出每种的例子。

表2

如果试验中的比较是间接的,那么证据的质量就会较弱

查看该表:

不精确

当研究包括相对较少的患者和较少的事件,因此具有较宽的置信区间时,由于结果的不确定性,指导小组判断证据的质量较低。例如,大多数替代惠普尔手术的结果既包括重要效果,也包括根本没有效果,有些还包括两个方向上的重要差异。

发表偏倚

如果调查人员没有报告他们所进行的研究,证据的质量将会降低。不幸的是,指导方针小组必须经常猜测发表偏倚的可能性。当已发表的证据仅限于少数几项试验,且所有这些试验都由工业界资助时,应该引起发表偏倚怀疑的典型情况发生了。例如,在痔疮患者中使用黄酮类化合物的14项试验显示出明显的巨大益处,但总共只招募了1432名患者。18赞助者在这些试验中的大量参与引发了一个问题,即未发表的试验是否表明不存在任何益处。

一个特定的证据体可能有不止一个这样的限制,限制越大,证据的质量就越低。例如,尽管有5个随机试验可用,但只有非常低质量的证据表明胰腺癌患者的替代外科手术对胃排空问题发生率的影响(表1)).19

有三个因素可以提高证据的质量

尽管做得好的观察性研究通常得出的证据质量较低,但在不寻常的情况下,它们可能得出中等甚至高质量的证据(见图表)。20.

首先,当方法学上强有力的观察性研究对治疗效果的量级产生较大或非常大且一致的估计时,我们可能对结果有信心。在这些情况下,尽管观察性研究可能高估了真实效果,但薄弱的研究设计不太可能解释所有明显的好处。

影响的幅度越大,证据就越有力。例如,一项观察性研究的荟萃分析显示,自行车头盔大大降低了参与碰撞的骑车人头部受伤的风险(优势比0.31,95%置信区间0.26至0.37)。21这种巨大的影响表明证据质量中等。一项评价华法林预防在心脏瓣膜置换术中的影响的观察性研究的meta分析发现,华法林血栓栓塞的相对风险为0.17(95%可信区间为0.13至0.24)。22这种非常大的影响表明了高质量证据的评级。

其次,有时所有来自观察性研究的貌似合理的偏差都可能低估真正的治疗效果。例如,如果病情较重的患者只接受了实验性干预或暴露,但接受实验性治疗的患者仍然表现较好,则实际干预或暴露的效果可能比数据显示的要大。例如,一项对包括3800万名患者的观察性研究的严格系统回顾发现,与私立非营利性医院相比,营利性私立医院的死亡率更高。两种医院类型中患者疾病严重程度不同的偏差,以及保险良好的患者的溢出效应,都将导致有利于营利性医院的估计。23因此,来自这些观察性研究的证据可能被认为是中等质量而不是低质量,也就是说,影响可能至少与观察到的一样大,甚至可能更大。

第三,剂量-反应梯度的存在可能会增加观察性研究结果的可信度,从而提高证据的指定质量。例如,观察到,在接受华法林抗凝的患者中,较高水平的国际标准化比值与出血风险增加之间存在剂量-反应梯度,这增加了超治疗性抗凝水平增加出血风险的信心。24

关键结局决定了各结局证据质量的评级

建议取决于几个患者重要结果的证据和每个结果的证据质量。这带来了两个挑战。首先,指南开发者应该如何决定哪些结果重要到值得考虑,哪些结果至关重要?我们建议指南开发者应该明确地考虑这些问题,并考虑到那些受影响的人的观点。

其次,如果不同结果的证据质量不同,应如何评估证据的质量?这发生在Whipple程序的例子中,其中证据质量从中等到极低不等(表1)).

在诸如惠普尔手术的例子中,指南制定者应该考虑治疗的不良后果是否重要,但对最佳管理策略的决策不是关键,或者它们是否关键。如果一个证据质量较低的结果对决策至关重要,那么整个结果的证据质量评级必须反映这个质量较低的证据。如果证据质量较低的结果是重要的但不是关键的,GRADE方法建议对结果进行评级,以反映来自关键结果的高质量证据。因此,对于惠普尔手术的例子,如果那些提出建议的人认为胃排空问题是关键的,那么整个结果的证据质量评级将非常低。如果胃排空是重要的但不是关键的,尽管存在5年生存率的中等质量证据,但结果的质量评分将很低(基于明显关键的围手术期死亡率的结果)(表1)).

证据概要提供简单、透明的摘要

忙碌的临床医生——以及忙碌的病人和政策制定者——需要简明、透明、易于消化的证据摘要。GRADE过程有助于创建这样的摘要。表1,该研究显示了标准Whipple手术与更有限的切除(保留幽门)胰腺癌患者的相对效果,该研究告诉我们,更有限的切除可以减少失血量和围手术期死亡率,而不会增加长期不良后果,但证据仍然有限。

结论

GRADE提供了一个清晰、全面和透明的方法,用于评估和总结支持管理建议的证据的质量。虽然每个步骤都需要作出判断,但系统和透明的GRADE方法有助于对这些判断进行审查和辩论。

脚注

  • 这是一个系列的五篇文章,解释GRADE系统评级的证据质量和建议的强度

  • 贡献者:包括GRADE工作组成员在内的所有作者都对手稿中的思想发展做出了贡献,并阅读并批准了手稿。GG编写了第一稿,并为后续的迭代整理了作者和审稿人的评论。他是这份手稿的保证人。署名中列出的所有作者都贡献了关于结构和内容的想法,提供了例子,并审阅了手稿的连续草稿并提供了反馈。

  • GRADE工作组的成员有Phil Alderson, Pablo Alonso-Coello, Jeff Andrews, David Atkins, Hilda Bastian, Hans de Beer, Jan Brozek, Francoise Cluzeau, Jonathan Craig, Ben Djulbegovic, Yngve Falck-Ytter, Beatrice Fervers, Signe Flottorp, Paul Glasziou, Gordon H Guyatt, Margaret Haugh, Robin Harbour, Mark Helfand, Sue Hill, Roman Jaeschke, Katharine Jones, Ilkka Kunnamo, Regina Kunz, Alessandro Liberati, Merce Marzo, James Mason, Jacek Mrukowics, Susan Norris, Andrew D Oxman,Vivian Robinson, Holger J Schünemann, Tessa Tan Torres, David Tovey, Peter Tugwell, Mariska Tuut, Helena Varonen, Gunn E Vist, Craig Wittington, John Williams和James Woodcock。

  • 资金:没有具体的资金。

  • 利益竞争:所有作者都参与了GRADE的传播,GRADE的成功对他们的学术生涯有积极的影响。文章标题中列出的作者已收到旅费报销和酬金,他们的报告包括对GRADE评估证据质量和评级建议的方法的审查。GHG担任UpToDate的顾问;他的工作包括帮助UpToDate使用GRADE。HJS是美国胸科学会的文献编辑和方法学家;他在这些职位上的角色之一是帮助实施GRADE的使用。他得到了“人为因素、流动性和玛丽·居里行动科学家重新融合欧洲委员会资助:IGR 42192-GRADE”的支持。

  • 出处和同行评审:未受委托;外部同行评审。

参考文献

视图抽象