分析证据质量评级和建议力度

GRADE:对证据质量和推荐强度的评级正在形成的共识

BMJ2008;336doi:https://doi.org/10.1136/bmj.39489.470347.AD（2008年4月24日出版）引用这一点：BMJ2008; 336：924

戈登·H Guyatt教授,1那
安德鲁多牛工，研究人员2那
甘恩·维斯特，研究人员2那
Regina Kunz.副教授3.那
Yngve Falck-Ytter助理教授4.那
帕布罗·阿隆索·科埃罗，研究人员5.那
Holger JSchünemann.教授,6.
对于等级工作组

¹加拿大汉密尔顿麦克马斯特大学临床流行病学和生物统计学系L8N 3Z5
²挪威卫生服务知识中心，挪威奥斯陆0130圣奥拉夫斯普拉斯信箱7004号
^3.巴塞尔临床流行病学研究所，巴塞尔大学医院，瑞士巴塞尔Hebelstrasse 10，4031
^4.美国凯斯西储大学凯斯医学中心消化内科，俄亥俄州44106
^5.西班牙巴塞罗那圣帕医院伊比利亚-美洲科克伦中心流行病学服务中心（巴塞罗那大学），邮编：08041
^6.意大利国家癌症研究所流行病学系，意大利罗马

通讯:G H Guyatt, CLARITY研究小组，临床流行病学和生物统计学部，2C12室，1200 Main Street, West Hamilton, ON, Canada L8N 3Z5guyatt在{}mcmaster.ca

指南在如何评价证据质量和建议力度方面是不一致的。本文探讨了日益被世界各地的组织所采用的GRADE系统的优点

摘要要点

不考虑证据质量会导致误导性的建议；绝经后妇女的激素替代疗法提供了一个有指导意义的例子
高质量证据表明干预的理想效果明显大于其不良影响，或显然没有，保证强有力的建议
关于权衡的不确定性（因为质量低的证据或因为所需和不良效果是密切均衡的）认证建议薄弱
准则应告知临床医生潜在证据的质量是什么以及建议是否强大或弱势
建议评估，发展和评估（等级）方法的评分提供了一个评级证据质量和建议实力的制度，这是明确，全面，透明和务实的，越来越多地通过全球组织通过

世界各地的指南开发人员在他们利用如何评价的证据和等级实力的情况下不一致。因此，指南用户面临挑战在理解评级系统尝试沟通的消息方面。自2006年以来BMJ已要求在BMJ.com上的“向作者指示”作者最好使用建议评估，开发和评估（等级）系统的评分进行临床指导条款的评分证据。这是什么决定的？

在这一系列中的一系列五篇文章中，我们将解释为什么许多组织使用正式系统来等级证据和建议以及为什么这对临床医生很重要;我们将专注于建议的成绩方法。在接下来的两篇文章中，我们将研究成绩系统如何对数据质量分类和建议的力量。最后的两篇文章将重点关注诊断测试和等级框架，以解决干预措施对资源使用的影响。

GRADE比以前的评级系统有优势(框1)。其他系统共享这些优势中的一些，但没有一个系统，除了GRADE，结合了所有这些优势。1

盒子1其他系统等级的优点

由一个具有广泛代表性的国际指南开发小组开发
证据质量和建议力度之间的明确区分
明确评估替代管理战略结果的重要性
明确、全面的降低和提高证据评级质量的标准
从证据到建议的透明过程
明确确认值和首选项
明确，对临床医生，患者和政策制定者的强大建议务实的务实解释
有助于系统审查和卫生技术评估，以及指导方针

什么是“证据质量”，为什么它很重要?

在制定医疗保健管理决策时，患者和临床医生必须权衡替代战略的益处和缺陷。决策者不仅受到预期优势和缺点的最佳估计，而且还受到对这些估计的信心的最佳估计。描绘天气预报员的不确定性的卡通捕获了对结果的可能性和该评估的信心之间的评估之间的差异（图⇓). 对干预影响程度的评估是否有用取决于我们对该评估的信心。

专家临床医生和向临床社区提供建议的组织往往由于没有充分考虑证据的质量而出错。2十年来，一些组织建议临床医生鼓励绝经后的妇女使用激素替代疗法。3.许多初级保健医生尽职尽责地应用了这一建议。

认为这种疗法能显著降低女性心血管疾病风险的观点推动了这项建议。如果当时应用了一套严格的证据质量评级系统，那么就会表明，由于数据来自结果不一致的观察性研究，降低心血管风险的证据质量非常低。4.如果认识到证据的局限性，这些建议就会打折扣。最终，随机对照试验表明，激素替代疗法不能降低心血管风险，甚至可能增加风险。5.6.

美国食品和药物管理局持续止气性药剂，伯克接种剂在药物的基础上用于减少与猝死相关的无症状心律失常的能力。该决定未能承认，由于对突然死亡的结果仅对突发死亡的结果进行了反映的心律失常，因此药物益处的证据质量低质量。随后，随机对照试验表明，两种药物增加了猝死的风险。7.对证据质量低的问题给予适当的关注，本可以挽救成千上万人的生命。

未能识别高质量的证据可能会导致类似的问题。例如，专家的建议比进行良好的随机对照试验(溶栓治疗降低心肌梗死死亡率)的证据落后了10年。8.

对证据质量不足风险不当指导和建议可能导致临床医生损害患者。认识到证据质量将有助于防止这些错误。

指南开发者应该如何提醒临床医生注意证据质量?

一个对证据质量进行分类的正式系统——例如，从高到极低——代表了向临床医生传达证据质量的一种明显策略。然而，也存在一些限制。证据质量是一个连续体;任何离散的分类都包含一定程度的任意性。然而，简单、透明和生动的优点超过了这些限制。

什么是“推荐强度”，为什么它很重要?

为提供特定治疗的建议可能会出现来自大型严格的随机对照试验，这些控制试验可能出现一致的令人印象深刻的益处，副作用很少，不便和成本。这种情况是使用哮喘患者的患者的口腔类固醇短期。临床医生可以为几乎所有患者提供此类治疗，几乎或毫不犹豫。

或者，治疗建议可能来自观察性研究，可能涉及明显的伤害、负担或成本。决定是否在有人工心脏瓣膜的孕妇中使用抗血栓治疗包括权衡瓣膜血栓减少的程度与不便、成本和致畸风险。提供此类治疗的临床医生必须帮助患者根据他们的价值观和偏好仔细权衡理想和不理想的效果。

因此，指导方针和建议必须表明(一)证据质量高，且预期效果明显大于不良效果，或(b)存在一种接近或不确定的平衡。对建议进行简单、透明的分级可以有效地传达这一关键信息。

正式的推荐分级是有限制的。就像证据的质量一样，理想效果和不理想效果之间的平衡反映了一个连续性。因此，将特定的建议归类为“强”和“弱”，就会产生一些随意性。大多数制定指导方针的组织都认为，明确的推荐等级的优点大于缺点。

是什么让良好的评分系统？

并不是所有的分级系统都将关于证据质量的决定与建议的力度分开。那些没有这样做的人制造了混乱。高质量的证据并不一定意味着强有力的推荐，而强有力的推荐可能来自低质量的证据。

例如，无明显刺激因素的首次深静脉血栓形成的患者，在抗凝的头几个月后，必须决定是否继续长期服用华法林。高质量的随机对照试验表明，持续使用华法林将降低血栓复发的风险，但代价是增加出血和不便的风险。由于不同价值观和偏好的患者会做出不同的选择，尽管有高质量的证据，指导小组处理患者是否应该继续或终止华法林应该提供一个薄弱的建议。

考虑给患有水痘的儿童服用阿司匹林或扑热息痛的决定。观察性研究已经观察到服用阿司匹林和雷氏综合征之间的关联。9.由于阿司匹林和扑热息痛的镇痛和解热作用相似，关于阿司匹林和雷氏综合征之间相关性的低质量证据并不排除对扑热息痛的强烈推荐。

将“专家意见”归类为证据类别的系统也造成了混淆。判断是解释所有证据的必要条件，无论证据是高质量的还是低质量的。有关其临床经验的专家报告，以及病例报告和其他不受控制的临床观察，应明确标记为质量极低的证据。

在判断证据质量和建议强度方面简单的分级系统有助于患者、临床医生和决策者的使用。1详细明确的质量评级和实力评级标准将使使用指南和建议的人的判断更加透明。

虽然许多评分系统在某种程度上符合这些标准，1过多的系统使得一线临床医生难以使用它们。理解各种系统既不是有效也不是实际使用临床医生的时间。GRADE系统被广泛使用:世界卫生组织、美国医师学会、美国胸科学会、最新(北美广泛使用的电子资源)、www.uptodate.com），Cochrane合作是超过25个已经通过成绩的组织。这种级别的广泛采用反映了等级的成功作为一种方法，作为一种方法是严谨的用户友好的分级系统。

年级系统如何分类证据质量？

为了实现透明度和简单性，评分系统将证据质量分为四个级别：高、中、低和极低（方框2）。一些使用等级制的组织选择将低等级和极低等级相结合。基于随机对照试验的证据一开始是高质量的证据，但我们对证据的信心可能会因为以下几个原因而降低：

研究局限性
不一致的结果
证据的间接性
不精确
报告的偏见。

虽然观察性研究（例如，群组和案例控制研究）从“低质量”额定值开始，但如果治疗效果的幅度非常大（如严重的髋关节骨关节炎和髋关节替换），则可以保证向上测量。存在剂量响应关系的证据或所有合理的偏见会降低表观治疗效果的大小。

框2证据的质量和定义

高质量- 进一步的研究非常不太可能改变我们对效果估计的信心
中等质量- 进一步的研究可能对我们对效力估计的信心产生重要影响，并可能改变估计
低质量- 进一步的研究很可能对我们对效果估计的信心产生重要影响，并且可能会改变估计
质量很低-任何对效果的估计都非常不确定

年级系统如何考虑推荐的力量？

等级系统提供了两种建议：“强”和“弱”（尽管指南面板可能更喜欢“条件”或“自由裁量”而不是弱）。当干预的理想效果明确超过了不良影响，或者显然没有，指导小组提供了强有力的建议。另一方面，当权衡较不定期时 - 由于质量低的证据，或者因为证据表明所需和不良影响是密切平衡的，建议是强制性的。

除了证据的质量外，还有几个其他因素影响建议的强弱(表1)⇓).

影响推荐力量的因素

把这个表:

脚注

这是五篇解释GRADE系统对证据质量和推荐强度进行评级的系列文章中的第一篇。
伊比利亚-美洲科克伦中心是西班牙公共卫生网络CIBER de Epidemia y Salud Pública的一部分。
GRADE工作组的成员有Phil Alderson、Pablo Alonso-Coello、Jeff Andrews、David Atkins、Hilda Bastian、Hans de Beer、Jan Brozek、Francoise Cluzeau、Jonathan Craig、Ben Djulbegovic、Yngve falick - ytter、Beatrice Fervers、Signe Flottorp、Paul Glasziou、Gordon Guyatt、Robin Harbour、Margaret Haugh、Mark Helfand、Sue Hill、Roman Jaeschke, Kathatrine Jones, Ilkka Kunnamo, Regina Kunz, Alessandro Liberati，梅斯·马尔佐，James Mason, Jacek Mrukovics, Susan Norris, Andrew Oxman, Vivian Robinson, Holger Schünemann, Tessa Tan Torres, David Tovey, Peter Tugwell, Mariska Tuut, Helena Varonen, Gunn Vist, Craig Wittington, John Williams, and James Woodcock。
贡献者：成绩工作组的所有成员都为稿件中的想法做出了贡献，并读取并批准了稿件。GHG将第一个草案与作者和审核人员一起撰写并进行了审稿人，以便随后的迭代。ADO，GEV，RK，YF-Y，PA-C和HJS为结构和内容提供了思考，提供了示例，审查了稿件的连续草稿，并提供了反馈。温室气体是担保人。
资金：没有具体的资金。
竞争利益：所有作者都参与了分级的传播，等级的成功对他们的学术职业产生了积极的影响。划线中列出的作者已收到旅行报销和酬金，其中包括审查等级的评价证据和评分建议的评级方法。温室气体担任环保顾问;他的作品包括帮助上调他们的成绩。HJS是美国胸部社会的文件编辑和方法学家;他在这些职位的角色之一是帮助实施等级的使用。他得到了“人类因素，流动性和玛丽居里行动科学家重返社会欧盟委员会授予的支持：IGR 42192级。”
出处和同行评审：未委托；外部同行评审。

参考

↵

Atkins D，Eccles M，Flottorp S，Guyatt GH，Henry D，Hill S等人。用于评分证据质量和建议实力的系统：对现有方法的批判性评估。等级工作组。BMC运行状况服务器Res2004;4.（1）：38．

OpenUrl CrossRef PubMed
↵

随机试验的惊人结果。在:Guyatt G, Drummond R, eds。用户指导到医学文献：基于证据的临床实践手册．芝加哥，伊利诺伊州:AMA出版社，2002．
↵

美国医师学院。绝经后妇女预防性激素治疗咨询指南。安实习生地中海1992;117：1038-41年。

OpenUrl CrossRef PubMed 网络的科学
↵

韩伟林，陈炳基，苏克华。绝经后激素替代治疗与心血管疾病的一级预防。安实习生地中海2002;137：273-84.

OpenUrl CrossRef PubMed 网络的科学
↵

huley S, Grady D, Bush T, Furberg C, Herrington D, Riggs B, et al.;雌激素联合黄体酮用于绝经后妇女冠心病二级预防的随机试验心脏与雌激素/黄体酮替代研究(HERS)研究组。日本汽车制造商协会1998;280：605.-13．

OpenUrl CrossRef PubMed 网络的科学
↵

Rossouw JE、Anderson GL、Prentice RL、LaCroix AZ、Kooperberg C、Stefanick ML等。健康绝经后妇女雌激素加孕激素的风险和益处：妇女健康倡议随机对照试验的主要结果。日本汽车制造商协会2002;288：321-33年。

OpenUrl CrossRef PubMed 网络的科学
↵

Echt DS，Liebson Pr，Mitchell LB，Peters RW，Obias-Manno D，Barker Ah等。接受伯因德，絮凝剂或安慰剂的患者的死亡率和发病率。心心律失常抑制试验。英国医学杂志1991;324：781-8。

OpenUrl CrossRef PubMed 网络的科学
↵

Antman EM Lau J Kupelnick B Mosteller F Chalmers TC比较随机对照试验的meta分析结果和临床专家的建议。心肌梗死的治疗。日本汽车制造商协会1992;268：240-8。

OpenUrl CrossRef PubMed 网络的科学
↵

传染病委员会。阿司匹林和雷氏综合征。儿科学1982;69：810.－２．

OpenUrl 抽象的/免费的全文

视图摘要

GRADE:对证据质量和推荐强度的评级正在形成的共识

摘要要点

盒子1其他系统等级的优点

什么是“证据质量”，为什么它很重要?

指南开发者应该如何提醒临床医生注意证据质量?

什么是“推荐强度”，为什么它很重要?

是什么让良好的评分系统？

年级系统如何分类证据质量？

框2证据的质量和定义

年级系统如何考虑推荐的力量？

脚注

参考

文章警告

登录或注册：

下载本文到引文管理器

帮助

转发本页

内容链接

关于我们

资源

探索BMJ

我的账户

信息

搜索形式

GRADE:对证据质量和推荐强度的评级正在形成的共识

摘要要点

盒子1其他系统等级的优点

什么是“证据质量”，为什么它很重要?

指南开发者应该如何提醒临床医生注意证据质量?

什么是“推荐强度”，为什么它很重要?

是什么让良好的评分系统？

年级系统如何分类证据质量？

框2证据的质量和定义

年级系统如何考虑推荐的力量？

脚注

参考

文章警告

登录或注册：

下载本文到引文管理器

帮助

转发本页

内容链接

关于我们

资源

探索BMJ

我的账户

信息