跳转到主要内容

广告

对证据质量和建议力度进行分级的制度一:对现有办法进行批判性评价

摘要

背景

已经使用了一些方法来对证据的级别和建议的强度进行分级。使用许多不同的方法有损于采用明确方法的主要原因之一:简明地描述和传达这些信息,使其易于理解,从而帮助人们做出明智的决定。我们的目标是批判性地评价六种主要的证据分级制度和建议的力度,作为达成证据分级和建议力度的共同、合理方法特征的基础。

方法

被选定为分级的证据和推荐强度水平六条显着的系统,有人熟悉各系统准备每一项的描述。十二评估独立评估基于12个标准来评估的不同方法的敏感性每个系统。51个组织使用的系统与这些六种方法进行了比较。

结果

与会者一致认为,六大系统的灵敏度一致性差。只有系统之一,是适合所有四种类型的问题,我们认为(有效性,危害,诊断和预后)。该系统中没有被认为是所有我们考虑(专业人士,患者和政策制定者)​​的目标人群的使用。评价者发现使用较低的所有六个系统判断而做出的重现性。51个该组织赞助的临床实践指南使用的系统包括了许多六大系统的微小变化中,我们严格评价。

结论

所有目前使用的方法来分级的证据水平和建议的实力都具有重要的缺点。

同行评审报告

背景

1979年加拿大工作队定期健康检查公布的第一次努力,以明确表征的证据基本医疗建议的水平和推荐强度[一个1]。从那时起,许多替代方法被提出并用于对临床实践指南进行分类[2- - - - - -28]。

加拿大特别工作组最初使用的方法仅基于研究设计,随机对照试验(RCTs)被列为良好(一级)证据,队列和病例对照研究被列为公平(二级)证据,专家意见被列为差(三级)证据。建议的强度是基于两者之间直接对应的证据水平;有力的建议(a)对应于有充分的证据。加拿大特遣部队最初的方法的优点是简单;主要的缺点是它太简单了。由于其简单性,它很容易理解、应用和呈现。然而,由于它是如此简单,有许多隐含的判断,包括对随机对照试验质量的判断,相互矛盾的随机对照试验结果,以及来自非实验研究的令人信服的结果。

例如:

  • 一个小的,设计很差的RCT应该被认为是I级证据吗?

  • 结果相冲突的随机对照试验仍应被视为一级证据吗?

  • 如果观察研究始终被视为II级证据,无论怎么说服他们?

原始方法由加拿大特遣部队也不包括明确判断的力量建议,比如如何权衡预期的利益,危害和成本的权衡和考虑从一个好的证据是如何确定的评估实践的结果的意义。

等级工作组的人在解决不足之处,如在这些系统分级证据和建议感兴趣的非正式协作。我们在这里描述六个突出系统的关键评价和批判性评价的结果。

方法

我们选择的系统分级证据水平和建议的实力,我们认为突出和不突出等系统中获取包括功能。这是基于通过非正式讨论的经验和作者的知识选择。的最新版本的说明(如2000年夏季的)这些系统的(附录1至6),是由熟悉系统的作者之一编制,并在此练习中使用。以下六个系统进行了评估:胸科医师(ACCP的美国大学,[见附加文件1))(21,澳大利亚国家健康和医学研究委员会(ANHMRC)附加文件2))(17],牛津中心循证医学(OCEBM,[见附加文件3))(16],苏格兰院际准则网络(SIGN [参见附加文件4))(18,美国预防服务工作小组(USPSTF)附加文件5))(22],对社区预防服务美国特遣部队(USTFCPS,[见附加文件6))(25]。

该系统的这些描述是给谁独立评估六大系统的十二人,所有作者减去GEV评为六大系统,三评为A组和报告作者之一(DH,SH和DO'C)的(见的贡献)。12名陪审员都有经验,至少一个系统和最有帮助开发六大包括系统之一。通过范斯坦[描述十二标准29为评估这六种系统的敏感性提供了基础。

标准用于评估系统的灵敏度进行分级证据和建议

  1. 1.

    到什么程度是方法适用于不同类型的问题?-effectiveness,伤害,诊断和预后(不,不知道,是)

  2. 2.

    该系统在何种程度上可以用于不同的受众?-患者、专业人士和政策制定者(小范围、一定范围、大范围)

  3. 3.

    如何简单明了是系统?(不是很清楚,有点清楚,很清楚)

  4. 4.

    通常不需要的信息有多频繁?(通常,有时,很少)

  5. 5.

    在何种程度上是主观的决策需要?(通常,有时,很少)

  6. 6.

    是包括尺寸不属于结构内(证据或推荐的强度水平)?(是,部分,否)

  7. 7.

    是否有一些重要的方面是应该包括的,而不是没有?(不,部分,是的)

  8. 8.

    在其中所包含的维度进行汇总清晰简单的方式?(不,部分,是的)

  9. 9。

    所包含维度的聚合方式是否合适?(没有。部分,是的)

  10. 10。

    是足够的类别不同层次的证据,并建议强度之间进行区分?(不,部分,是的)

  11. 11.

    该系统在区分高水平和低水平的证据或强而弱的建议方面成功的可能性有多大?(不太可能,有点可能,非常可能)

  12. 12.

    是评估是否可以重现?(或许不会,不知道,也许)

我们没有提供任何培训,在将这12项标准应用于这6个系统之前,我们也没有讨论它们。

我们对这六种体系的独立评估进行了总结和讨论。讨论集中在对标准的解释上的差异,对我们所做的判断的分歧以及产生这些分歧的原因,这六种制度的优缺点,以及基于评价和随后讨论的推论。

为了识别重要的系统,我们可能忽略了下面我们这六个系统的评估,我们还搜查了美国机构卫生保健研究和质量(AHRQ)全国指南票据交换所为,在中央结算有不同等级的两个或两个以上的准则组织使用一个明确的系统[30.]。这些系统具有六大系统,我们严格评价进行比较。

结果

独立评估这六套系统的12名评估员意见不一致。对六种评价证据等级和建议强度的方法的敏感性的评价摘要载于表中1

表1评估六种方法对证据等级和建议强度的敏感性的摘要

讨论

评估者之间的不一致可能反映了几个因素。我们有些人有使用其中一个系统的实际经验,或使用与一个或多个评分系统有关的额外背景资料,我们可能偏向于我们最熟悉的系统。每个标准都应用于证据和建议的分级。有些系统对于这些构造中的一个比另一个更好,我们可能以不同的方式处理这些差异。此外,每一项标准可以根据对证据的不同判断进行评估,例如对重要结果(跨研究)的证据的总体质量与单个研究的质量进行评估。有些标准不明确,解释或应用不一致。例如,一个系统可能是清晰而不简单的,或者反之亦然。我们可能在应用标准的严格程度上存在分歧。最后,出现了真正的分歧。

与会者一致认为,海洋弹道导弹系统对所有四类问题都有效。对于其他系统在多大程度上可以很好地处理效率以外的问题,存在分歧。指出,一些系统不是为了解决其他类型的问题,目前还不清楚是很重要的一个系统应该解决所有四种类型的问题,我们认为(有效性、伤害、诊断、预后),尽管标准来评估个人的研究必须要考虑到这一点(31,32]。

我们大多数人都没有发现任何一个系统可能适合病人使用。几乎所有人都同意ACCP系统适合专业人员,大多数人认为USPSTF系统适合专业人员。虽然大多数人认为USTFCPS系统适合于决策者,但对其他任何系统是否适合专业人员或任何系统是否适合决策者的问题没有达成多少协议。

虽然USPSTF、ACCP和签字系统在这方面的评价普遍较好,但没有人同意任何系统都是清楚和简单的。人们普遍认为,一个体系越清晰,它就越不简单;例如,OCEBM系统对证据级别的分类很清楚,但并不简单。对于我们是否在评估系统对于指导开发人员有多清晰和简单(正如一些人对这个标准的解释),或者应用系统的结果对于指导用户有多清晰和简单(正如其他一些人对这个标准的解释),存在一些混淆。不管怎样,一个系统越简单,它可能就越不清晰。

我们大多数人的判断,对于大多数系统的必要信息将不可用至少有时。该OCEBM系统出来比其他系统有所好转,缺乏必要的信息可用性被认为是对USTFCPS系统的问题少。然而,OCEBM和USTFCPS系统被大多数人认为是缺失的尺寸可以部分地解释了为什么缺少的信息被认为是一个问题的少。这将是的情况下丢失的尺寸为的那些信息将经常或有时不能用于其中的程度。为此我们认为,信息的维度将最经常缺少的是权衡;即受影响者的偏好或效用值的知识。另外的问题关系到复杂的干预和辅导,特别是与USTFCPS和USPSTF系统进行鉴定。有人指出,USTFCPS系统通过包括有关干预信息的可用性作为其证据质量的评估的一部分,解决了这个问题。

大多数系统进行了评估,要求至少主观的决定在一定程度上。该OCEBM系统再次站出来为被评估的更有利的,尽管它可能与需要更多的主观决策层面的遗漏。判断显然需要与任何系统。目的应该是做出判断透明,并设法防止偏见在由被系统和明确作出的判断。

未中的结构被分级尺寸的包容不是由我们大多数人考虑的一个问题对于大多数系统。一些人认为,这可能是为USTFCPS和USPSTF系统的一个问题。在另一方面,所有的系统进行评估,以通过至少一人失踪,至少一个重要方面。缺少维度的挑战被认为是ACCP和ANHMRC系统的问题少。有没有任何有明确而简单的方法来聚集尺寸系统的协议,虽然这被认为是一个问题的少了ACCP,SIGN和USTFCPS系统。

还有的尺寸是如何汇总妥帖不同意。这被认为是多为ANHMRC和USTFCPS系统比其他四个系统,所有这些都被认为已采取一种方法来聚集,这是至少部分地由不恰当的比我们的一半以上尺寸的问题。

我们大多数人认为,除了ANHMRC系统外,大多数系统都有足够的类别。几乎一致认为,USPSTF系统有足够的类别。我们一致认为,类别可能太多也可能太少,海洋导弹系统就是类别太多的一个例子。

虽然每个人都认为ACCP、SIGN和USPSTF系统在某种程度上很可能存在歧视,但是没有人同意其中任何一个系统可能存在成功的歧视。最后,我们基本上同意我们不确定如何使用任何可再生的评估系统,虽然一半的我们认为评估使用ANHMRC系统不太可能重现,约1/3认为评估使用OCEBM和ACCP系统可能是可再生的。

我们确定了另外22个组织,它们已经制定了10条或更多的实践指南,使用明确的方法对证据的级别或建议的强度进行分级。另有29个国家采用一种明确的方法制定了2至9项指导方针。这些系统包括我们详细评估过的六个系统的一些小变化。

在使用12个标准的6种方法的评分上,个体评估者之间通常存在较差的一致性。但是,大家普遍同意,这六种确定证据水平和建议力度的主要方法都没有充分涉及我们认为应该考虑的所有重要概念和方面。尽管我们将评估限制在6个系统中,但我们所确定的所有额外的证据等级和建议强度的分级方法,本质上都是我们严格评估的6个方法的变体。因此,我们相信,在进行这些评估时,我们没有漏掉任何可用的重要评分系统。

根据对这六种方法进行批判性评价后的讨论,我们商定了一些结论:

  • 对证据质量的判断和对利弊平衡的判断应分别进行评估。

  • 对于损害的证据应该以同样的方式为收益的证据进行评估,但不同的证据,可考虑相关的伤害比好处;例如并发症发生率的当地证据可能被认为比从动脉内膜切除术试验的并发症发生率的证据更有意义。

  • 对证据质量的判断应基于对相关研究的系统回顾。

  • 不应将系统审查列入证据等级(即作为证据的级别或类别)。良好的系统评价并不对应高质量的证据,因为良好的评价可能包括任何内容,从没有研究到结果不一致的低质量研究,再到结果一致的高质量研究。

  • 在确定建议适用的人群时,应考虑基线风险。在对利益和危害之间的平衡做出判断时,也应该透明地使用基线风险。当建议与基线风险的关系发生变化时,应适当而明确地评估确定基线风险的证据。

  • 如果没有足够的证据来指导对基线风险的可靠判断,建议不应因基线风险而改变。

结论

基于的优势和目前的各种分级的证据水平和建议的强度限制的讨论,我们同意拟订一个地址的主要限制,我们确定了一个办法。该GRADE工作组已开发的方法是基于以下关键评估报告这里的讨论和GRADE方法的试验研究[33]。根据试点测试和试点之后的讨论中,GRADE工作组进一步发展了GRADE系统目前的形式[34]。

甲级工作组继续增长,因为这一年开会一次或两次非正式的合作。该集团保持网页http://www.gradeworkinggroup.org还有一个讨论列表。

贡献

哒,帕布,我,科幻,温室气体,DH, SH,艾尔,'C, ADO,英国石油公司,海关,TTTE, GEV & JWW Jr作为年级工作组成员造成了这个手稿的准备和本文所包含的思想的发展,参与关键的评估,并阅读和评论本文的草稿。GHG和ADO领导了这一进程。全球环境基金主要负责协调这一进程。

参考

  1. 1.

    加拿大定期健康检查工作队:定期健康检查。可心医学杂志1979,121:1193-254。

  2. 2.

    Sackett DL:关于使用抗血栓药物的证据规则和临床建议。胸部。1986,89(增刊2):2S-3S。

  3. 3.

    Sackett DL:关于使用抗血栓药物的证据规则和临床建议。医学档案1986年,146:464-465。

  4. 4.

    Sackett DL:关于使用抗血栓药物的证据规则和临床建议。胸部。1989年,95:2S-4S。

  5. 5.

    库克DJ,亚特GH,Laupacis A,萨基特DL:证据以及使用抗血栓药物的临床建议规则。抗栓治疗共识会议。胸部。1992年,102(增刊4):305S-311S。

  6. 6.

    美国卫生与公众服务部,公共卫生服务部,机构卫生保健政策和研究:急性疼痛管理:手术或医疗程序和创伤。卫生保健政策和研究出版物署,罗克维尔,马里兰州(AHCPR公共92-0038)。1992

  7. 7.

    Gyorkos TW,坦南鲍姆TN,Abrahamowicz男,奥克斯曼AD,斯科特EA,明珊ME,Rasooly我,弗兰克JW,Riben PD,马蒂亚斯RG:来的实践准则的制定社区卫生干预措施的一种方法。灿Ĵ公共卫生。1994年,85(增刊1):S8-S13。

  8. 8.

    Hadorn DC, Baker D: ahcpr赞助的心力衰竭指南的发展:方法学和程序问题。质量改进。1994,20:539-54。

  9. 9。

    库克DJ, Guyatt GH,劳帕基斯A, Sackett DL, Goldberg RJ:使用抗血栓药物证据水平的临床建议。胸部。1995,108(4增刊):227S-230S。

  10. 10。

    Guyatt GH, Sackett DL, Sinclair JC, Hayward R, Cook DJ, Cook RJ, for the循证医学工作组:医学文献的用户指南。医疗保健建议分级的方法。循证医学工作组。《美国医学协会杂志》上。1995年,274:1800 - 4。10.1001 / jama.274.22.1800。

  11. 11.

    皮特里Ĵ,巴恩韦尔E,格里姆肖记者:标准鉴定为国家使用。试验版本。苏格兰校际指导方针网络。1995年,[http://www.sign.ac.uk/methodology/index.html]

  12. 12.

    美国预防服务工作组:临证指南预防服务。1996年,巴尔的摩:威廉姆斯和威尔金斯,三十九-LV。2

  13. 13.

    Eccles M, Clapp Z, Grimshaw J, Adams PC, Higgins B, Purves I, Russell I:英格兰北部基于证据的指南开发项目:指南开发的方法。BMJ。1996年,312:760 - 2。

  14. 14.

    炫酷拉每德拉Valutazione德拉Efficacia Assistenza SANITARIA(CeVEAS)。的特价贵大每1L trattamento德尔tumore德拉mammella内拉省报摩德纳(Luglio 2000)。进入2002年12月29日,[http://www.ceveas.it/ceveas/viewpage.do?idp=3]

  15. 15.

    亚特GH,库克DJ,萨基特DL,埃克曼男,波克尔S:用于抗血栓药物的推荐等级。胸部。1998年,114(增刊5):441S-4S。[http://www.chestjournal.org/content/vol119/1_suppl/]

  16. 16.

    Ball C, Sackett D, Phillips B, Straus S, Haynes B:证据的水平和推荐的等级。最后修订1998年9月17日。循证医学中心,[http://www.cebm.net/levels_of_evidence.asp]

  17. 17.

    国家健康与医学研究委员会:如何用证据:评估和科学证据的应用。澳大利亚联邦。2000年,[http://www.nhmrc.gov.au/publications/synopses/cp65syn.htm]

  18. 18.

    港R,米勒记者:对于分级基于证据的指导方针建议的新系统。BMJ。2001年,323:334-6。10.1136 / bmj.323.7308.334。

  19. 19.

    Roman SH, Silberzweig SB, Siu AL:对糖尿病表现的证据进行分级[见注释]。杰夫·克林实践。2000,3:85-91。

  20. 20。

    Woloshin S:争论的成绩。EFF临床PRACT。2000年,3:94-5。

  21. 21。

    亚特GH,许内曼H,库克d,波克尔S,辛克莱Ĵ,布赫尔H,Jaeschke R:用于抗血栓形成剂的推荐等级。胸部。2001年,119:3S-7S。10.1378 / chest.119.1_suppl.3S。

  22. 22。

    阿特金斯D,贝斯特D,夏皮罗:第三届美国预防服务工作组:背景,方法和第一次建议。预防医学。2001,20(3(补充1)):1-108。

  23. 23.

    伍尔芙·希,阿特金斯·D:卫生保健中预防作用的演变:美国预防服务工作组的贡献。预防医学。2001,20(3(补充1)):13-20。10.1016 / s0749 - 3797 (01) 00262 - 8。

  24. 24.

    Harris RP, Helfand M, Woolf SH, Lohr KN, Mulrow CD, Teutsch SM, Atkins D, for the Methods Work Group of the Third U.S. Preventive Services Task Force: Current methods of the U.S. Preventive Services Task Force: A review of the process. Am J Preventive Medicine. 2001, 20 (3 (Supplement 1)): 21-35. 10.1016/S0749-3797(01)00261-6.

  25. 25.

    Briss PA, Zaza S, Pappaioanou M, Fielding J, Wright-De Aguero L, Truman BI, Hopkins DP, Mullen PD, Thompson RS, Woolf SH, carind - kulis VG, Anderson L, Hinman AR, McQueen DV, Teutsch SM, Harris JR:制定基于证据的社区预防服务指南-方法。社区预防服务专责小组。预防医学。2000,18:35-43。10.1016 / s0749 - 3797 (99) 00119 - 1。

  26. 26.

    Zaza S, Wright-De Aguero LK, Briss PA, Truman BI, Hopkins DP, Hennessy MH, Sosin DM, Anderson L, carind - kulis VG, Teutsch SM, Pappaioanou M:《社区预防服务指南》中系统审查的数据收集工具和程序。社区预防服务专责小组。美国预防医学杂志。2000,18:44-74。10.1016 / s0749 - 3797 (99) 00122 - 1。

  27. 27.

    Greer N, Mosser G, Logan G, Halaas GW:证据分级的实用方法。吴建华。中国食品药品监督管理委员会。2005年第1期。

  28. 28.

    West S, King V, Carey TS, Lohr KN, McKoy N, Sutton SF, Lux L:评估科学证据强度的系统。证据报告/技术评估第47号(由三角研究所-北卡罗莱纳大学循证实践中心根据第290-97-0011号合同编写)。AHRQ出版物号:02-E016。2002年,马里兰州洛克维尔:卫生保健研究与质量,64-88。

  29. 29.

    《克里尼计量学》,1987年,纽黑文,CT:耶鲁大学出版社,141-66页。

  30. 30。

    国家指南交换所。本署于2001年4月19日通过,[http://www.guideline.gov/resources/guideline_index.aspx]

  31. 31。

    《医学文献使用者指南》。2002年,芝加哥,美国医学协会出版社,55-154页。

  32. 32。

    West S, King V, Carey TS, Lohr KN, McKoy N, Sutton SF, Lux L:评估科学证据强度的系统。证据报告/技术评估第47号(由三角研究所-北卡罗莱纳大学循证实践中心根据第290-97-0011号合同编写)。AHRQ出版物号:02-E016。2002年,罗克维尔,医学博士:医疗保健研究和质量机构,51-63。

  33. 33。

    阿特金斯d,BRISS PA,埃克尔斯男,弗罗托普S,亚特GH,港湾RT,希尔S,Jaeschke R,Liberati A,Magrini N,梅森Ĵ,奥康d,奥克斯曼AD,菲利普斯B,许内曼HJ,Edejer TT,VIST GE,威廉姆斯JW,GRADE工作组:系统分级的证据质量和建议II实力:新系统的试验研究。生物医学中心。

  34. 34。

    布里斯最好阿特金斯D, D, PA,艾克尔斯M, Falck外边的Y, Flottorp年代,Guyatt GH,海港RT,泛滥平原MC,亨利·D,希尔年代,Jaeschke R, G愣,Liberati, Magrini N,梅森J,米德尔顿P, Mrukowicz J O ' connell D,奥克斯曼广告,菲利普斯B, Schunemann HJ, Edejer TT, Varonen H,拜访GE威廉姆斯JW Zaza公司年代,年级工作组:分级的证据质量和推荐的力量。BMJ。328(7454): 1490-2004年6月19日

出版前的历史

  1. 对于本文中的预发布的历史可以访问这里:http://www.biomedcentral.com/1472-6963/4/38/prepub

下载引用

确认

我们要感谢彼得·布里斯参与了关键的评估,并就这一进程提供了建设性的意见。工作组成员所属的机构提供了校内支助。本文所表达的观点不一定代表作者所属机构的观点。

作者信息

通讯作者冈恩ËVIST

附加信息

相互竞争的利益

DA相互竞争的利益与美国预防服务工作组(USPSTF),帕布相互竞争的利益与美国在社区预防服务工作组(USTFCPS),温室气体和商品相互竞争的利益与美国胸科医师学会(ACCP), DH, SH 'C有利益冲突与澳大利亚国家健康与医学研究理事会(ANHMRC),英国石油公司相互竞争的利益与牛津大学循证医学中心(OCEBM)。职系工作小组的大多数其他成员都有使用一种或多种职系证据和建议系统的经验。

电子辅助材料

权利和权限

再版和权限

关于这篇文章

引用本文

阿特金斯,D.,埃克尔斯,M.,弗洛托普,S.。et al。对证据质量和建议力度进行分级的制度一:对现有办法进行批判性评价。BMC健康服务4,38 (2004)。https://doi.org/10.1186/1472-6963-4-38

下载引文

关键字

  • 循证医疗保健
  • 水平的证据
  • 实践指南
  • 推荐力度
  • 系统评价