证据质量和推荐强度分级诊断测试和策略
BMJ2008年;336年doi:https://doi.org/10.1136/bmj.39500.677199.AE(2008年5月15日发布)引用这个:BMJ336:1106 2008;- Holger J Schunemann教授,12,
- 安德鲁·D奥克斯曼,研究员3,
- Jan Brozek,研究员1,
- 保罗Glasziou教授,4,
- 罗马Jaeschke临床教授5,
- 耿氏E参观,研究员3,
- 小约翰·W·威廉姆斯教授,6,
- Regina昆兹副教授7,
- 乔纳森•克雷格副教授8,
- 维克多M Montori副教授9,
- 帕特里克Bossuyt教授,10,
- 戈登·H Guyatt教授,2
- 年级工作组
- 1流行病学、意大利国家癌症研究所雷吉娜埃琳娜,00144年意大利罗马
- 2明确研究小组、部门的临床流行病学和生物统计学,麦克马斯特大学,加拿大安大略省汉密尔顿L8N 3 z5
- 3挪威卫生服务中心知识,邮政信箱7004,0130年奥斯陆,挪威
- 4循证医学中心的初级卫生保健,牛津大学,牛津OX3 7低频
- 5麦克马斯特大学医学系,1200年西方主要街道,加拿大安大略省汉密尔顿L8N 3 z5
- 6医学系的杜克大学和杜伦VA医学中心,达勒姆数控27705,美国
- 7巴塞尔研究所的临床流行病学、巴塞尔大学医院Hebelstrasse 10, 4031年巴塞尔瑞士
- 8筛选和测试评估程序,公共卫生学院,悉尼大学,肾脏学、儿童医院在威斯特,悉尼,澳大利亚
- 9医学知识和遇到的研究单位,部门,梅奥医学院罗彻斯特MN 55905,美国
- 10临床流行病学、生物统计学和生物信息学,学术医疗中心,大学阿姆斯特丹,荷兰阿姆斯特丹1100 DE
- 函授:H J Schunemannschuneh在{}mcmaster.ca
总结分
至于其他干预措施,等级评分方法的证据质量和推荐强度诊断测试或策略提供了一个全面和透明的方法发展的建议
横截面或群组研究可以提供高质量的证据的测试精度
然而,测试精度是一个代理patient-important结果,所以这些研究经常提供低质量证据有关诊断测试的建议,即使这些研究没有严重的限制
推断从数据准确性,诊断测试或策略提高patient-important结果将需要获得有效的治疗,减少测试相关的不良反应或焦虑,或改善患者的健康预后信息
因此判断需要评估测试结果与后果的直接对病人很重要的诊断建议
在这四篇文章中五部分的系列中,我们将描述如何指导开发人员正在使用等级评价证据,从证据的质量诊断测试的建议和策略。尽管建议诊断检测分享建议治疗的基本逻辑,他们提出了独特的挑战。我们将描述为什么指南面板时应该谨慎使用的证据的准确性测试(“测试精度”)作为建议的基础,为什么测试精度通常提供低质量证据的证据提出建议。
测试各种对病人护理的贡献
临床医生使用测试,通常被称为“诊断”包括症状和体征、成像、生物化学、病理学、和心理测试各种目的。1这些目的包括识别生理紊乱,建立预后、监测疾病和对治疗的反应和诊断。本文主要关注诊断:使用测试建立存在与否的疾病(如肺结核),目标条件(如缺铁),或综合症(如库兴氏综合征)。
自然而一些测试报告积极和消极的结果(例如,怀孕),其他测试报告他们的研究结果作为一个类别(例如,成像)或连续变量(例如,代谢措施),与疾病的可能性增加测试结果变得更加极端。为简单起见,在这个讨论中我们假设一种诊断方法,最终被分类测试结果看作是积极的还是消极的。
指导小组考虑诊断测试首先应该澄清其目标。考虑测试的目的可能是为了分流(最小化使用侵入性或昂贵的测试),替换(测试以更大的负担,侵袭性,或成本),或附加(提高诊断超出现有的测试)。2小组应该确定替代测试的局限性提供了一个假定的补救措施;例如,消除一个高比例的假阳性或假阴性结果,提高可用性、减少侵袭性,或减少成本。这个过程将导致确定合理的临床问题,与其它管理问题,有四个组成部分:患者,诊断干预(策略),比较,和结果。34的框中显示了一个示例问题替代测试。
临床医生经常使用诊断测试作为一个包或策略。例如,在管理显然可操作的肺癌患者在计算机断层扫描,临床医生可以直接进行开胸或应用的策略成像大脑,骨骼、肝脏、肾上腺,根据结果与后续管理。此外,测试序列可能使用一个初始敏感但非特异性测试,如果积极,紧随其后的是一个更具体的测试(例如,粪便隐血其次是结肠镜检查)。因此,一个经常能想到评价或推荐没有一个测试但诊断策略。
测试精度代孕patient-important结果
本文的主要贡献在于它提供了一个框架,考虑诊断测试结果的影响重要的病人(“patient-important成果”)。通常,当临床医生考虑诊断测试他们关注测试精度(即如何测试正确分类的病人有或没有疾病)。潜在的假设是,然而,获得一个更好的主意是否存在目标条件或缺席将导致高级管理的病人和改进的结果。在成像的例子显然转移性疾病患者提供可操作的肺癌,假设是,积极的额外的测试会让病人发病率和死亡率与徒劳的早期胸廓切开术。
计算机断层扫描对冠状动脉疾病的例子描述盒子里一个新的测试说明了另一个常见的理由:更换另一个测试(冠状断层而不是常规血管造影),以避免并发症更具有攻击性的和昂贵的选择。2在这个范例的情况下,新的测试只需要复制的敏感性和特异性(精度)的参考标准显示优势。
然而,如果测试失败提高重要成果,没有理由存在的使用,无论其准确性。因此,最好的方法来评估诊断策略控制试验中,研究人员随机治疗病人的实验诊断方法和测量或控制死亡率、发病率、症状和生活质量。7图1⇓说明了两个通用的研究结构,调查人员可以用它来评估测试的影响。
当诊断干预studies-ideally随机对照试验也观察性研究比较另类的诊断策略的评估直接patient-important结果是可用的(图1所示⇑(左),指导板可以使用等级的方法描述其他干预措施在本系列前面的文章中。1213如果测量的影响的研究测试patient-important结果并不可用,指南面板必须专注于研究的测试准确性和推断可能影响patient-important结果(图1所示⇑,对吧)。14在第二个情况下,诊断精度是一个替代的结果对患者的好处和危害。1
关键问题是假阴性的数量(错过)或假阳性将减少,与相应的增加在真正的优势和真正的不足;如何准确的相似或不同的患者经替代测试分类策略;什么结果都发生在患者贴上病例和贴上没有疾病。表1⇓礼物的例子说明这些问题。我们讨论这些问题在本文的后续部分,所有这一切将专注于使用诊断准确性的研究开发建议。
使用间接证据对patient-important推断影响的结果
推荐与诊断相关问题取决于之间的平衡诊断测试的理想和不良后果或策略应该基于一个系统的回顾,着重于临床问题。我们将使用一个简化的方法,将测试结果分为以上产生真正的阳性(病人正确分类治疗threshold-table 1⇑和图2⇓),假阳性(患者错误地分类高于治疗阈值),真正的底片(病人正确分类以下测试阈值),和假阴性(患者错误地分类下面测试阈值)。
然而,从数据推断精度诊断测试或策略提高patient-important结果需要有效的治疗方法的可用性。1或者,即使没有一个有效的治疗,一个精确的测试可能是有益的,如果它可以减少测试相关的不利影响或减少焦虑,不包括一个不祥的诊断,或者确认诊断改善病人的健康通过它赋予的预后信息。
例如,基因检测的结果为亨廷顿氏舞蹈病,一个无法治愈的条件,可以提供欢迎保证病人将没有条件或能力计划为他或她的未来知道他或她将开发的条件。在这种情况下,能力计划类似于一个有效的治疗和规划需要平衡的优点的缺点得到早期诊断。151617现在我们将描述理想的判断影响因素,平衡和不良的影响,关注质量的证据。
判断潜在的证据的质量
研究设计
年级的四个类别的质量的证据暗示一个梯度估计的信心patient-important诊断测试战略的影响结果。13高质量证据直接来自随机对照试验比较另类的诊断策略的影响对patient-important结果(例如,试验B型利钠肽的心脏衰竭如图1中所描述的⇑)没有限制在研究设计和行为,不精确(即动力检测patient-important结果)的差异,矛盾、间接性、和报告的偏见。131820.
虽然有效的准确性也开始研究高质量的诊断框架,这些研究往往容易受到限制和提供低质量证据建议,特别是由于他们通常提供的间接证据的影响后续管理patient-important结果。表2⇓描述了年级的特别的挑战判断证据的质量理想和不良后果的替代诊断策略。
研究局限性(偏见的风险)
连续有效的诊断测试准确性的研究包括代表和合法的病人诊断的不确定性存在,这类患者的临床医生应用测试过程中常规的临床实践。例如,如果研究失败这个标准和注册严重病例和健康-明显的准确性测试可能是误导性的高。2122
有效的诊断测试的研究涉及比较测试或测试正在考虑和一个适当的参考标准(有时称为“黄金”)。调查人员未能做出这样的比较在所有患者增加偏见的风险。偏见的风险进一步增加,如果执行或解释测试的人意识到参考或黄金标准测试的结果,反之亦然。指南面板可以使用现有的工具来评估偏差的风险评估诊断测试的准确性,研究结果可能会导致降低质量的证据如果存在严重的限制。232425
直率
我们描述了考虑直接对其他干预措施在前一篇文章。13直接提出了额外的判断,也许更大,挑战指南面板制造的诊断测试的建议。如果一个新的测试可以减少假阳性和假阴性,会在多大程度上减少导致patient-important改善结果?此外,一个新的测试可能会更简单,风险和成本较低,但可能产生假阳性和假阴性。考虑更换入侵的后果与冠状动脉造影ct扫描诊断冠状动脉疾病(表3所示⇓和图4⇓)。真正积极的结果将导致管理治疗的有效性(药物、血管成形术和支架,心脏搭桥手术);真阴性结果会让患者可能的参考标准测试的不利影响;假阳性的结果将导致不利影响的可能性(不必要的药物和干预措施,包括后续的血管成形术)没有明显的好处;和假阴性将导致患者没有得到的好处可干预有助于减少冠状动脉事件的后续风险。
因此,推断,减少假阳性和假阴性患者受益,增加他们对patient-important将有一个负面影响结果,相对强劲。至于其他干预研究结果,这些后果对病人的重要性的程度不同,应该考虑指南面板当平衡理想和不良后果;例如,病人会更重视预防心肌梗死比轻微心绞痛的发作。不确定的影响,测试结果是不太清楚;他们显然是不可取的,然而,他们可能会诱发焦虑,可能导致不必要的干预,引起进一步的测试,或延迟的应用有效的治疗方法。入侵angiography-infarction和death-although罕见的并发症,是很重要的。
因为我们的知识的后果的假阳性,假阴性,不确定的结果,和并发症与替代诊断策略是相当安全的,和这些结果非常重要,我们可以强烈的推断的相对影响计算机断层扫描和常规血管造影对patient-important结果。在本例中为冠状动脉疾病的概率相对较低,在大量的计算机断层扫描结果假阳性导致不必要的焦虑和进一步的测试,包括冠状动脉造影,在时间和资源花在电脑断层扫描(表4所示⇑)。它也会导致约1%(假阴性)的冠状动脉疾病病人被错过了。
不确定性结果的假阳性和假阴性的结果会削弱推断理想之间的平衡和不受欢迎的后果。考虑的结果假阳性和假阴性诊断成像的结果急性鼻窦炎的病人被怀疑。治疗的主要好处是疾病和症状的持续时间缩短,后果的平衡重要的病人是不太清楚假阴性结果患者之间剥夺了抗生素和将有一个长期的症状和并发症感染的风险增加,但没有使用抗生素的副作用和那些接受抗生素的假阳性结果时不应该但可放心,他们已经收到护理和治疗。此外,指导小组将不得不考虑的社会后果(如抗生素耐药性)管理抗生素假阳性病例。3
考虑再次使用B型利钠肽对心力衰竭(图1所示⇑)。测试可能是准确的,但如果临床医生已经与近乎完美的诊断准确性,并建立适当的治疗,测试将不会改善患者的治疗结果。即使医生最初不准确但纠正他们的错误随着临床图片(例如,通过取消最初的不必要的利尿剂治疗或随后承认需要利尿剂治疗),可能会影响患者的结果。测试结果和结果之间的联系是足够弱,除了其他因素,诊断精度信息仅只能提供低质量证据。然而,在这种情况下,两个随机对照试验表明,(至少在他们设置)B型利钠肽减少招生医院,住院的长度没有明显的不良后果。
指导小组考虑的问题诊断也面临同样的挑战对于模棱两可做板为其他干预措施提出建议。测试精度可能不同数量的患者:面板因此需要考虑如何诊断对应的人群纳入研究的主题的数量的建议。同样,面板需要考虑如何比较新的测试和参考测试中使用的测试设置的建议。最后,当两个或两个以上的备选新测试或评估策略,面板需要考虑是否这些诊断策略比较直接(在一项研究中)或间接(在单独的研究),常见的(参考)标准。262728
到达研究质量的底线
表5⇓显示了所有的配置文件和质量评估证据至关重要的计算机断层扫描血管造影的结果相比,侵入性血管造影术。原来的精度研究计划并执行,结果精确,我们不怀疑重要的发表偏倚。很少或根本没有存在的直接证据的不确定性(用于测试结果)patient-important结果为真阳性,假阳性,和真正的底片(表1所示⇑和5⇓)。然而,一些不确定性的程度限制在测试精度将产生有害的后果patient-important为假阴性结果导致降低证据质量从高到温和的(也就是说,我们相信假阴性的证据是间接的,因为我们不确定延迟诊断冠状动脉疾病导致了更糟糕的结果)。
也存在不一致的问题。审查员考虑断层的相对优势和侵入性血管造影对诊断冠状动脉疾病中发现重要的异质性的结果血管造影阴性患者的比例正断层扫描测试结果(特异性)和血管造影阳性患者的比例的结果-计算机断层扫描测试结果(灵敏度),他们无法解释(图3所示⇓)。异质性也是目前诊断测试的其他措施(也就是说,积极的和消极的可能性比率和诊断优势比)。原因不明的异质性在研究结果进一步降低证据质量的结果。主要不确定性patient-important假阴性检测结果的影响,将会导致降低证据质量从高到低的另一个例子在表1所示⇑。
到达一个推荐
假定patient-important的平衡结果的真实和假阳性和阴性测试并发症决定指导小组推荐或反对应用测试。12推荐的其他影响强度的因素包括证据的质量不确定性值和偏好相关的测试和假定patient-important结果,和成本。
冠状ct扫描避免入侵血管造影术的不良后果,包括心肌梗死和死亡。然而,这些后果是非常罕见的。结果,指导小组评估多层螺旋计算机断层扫描作为冠状动脉造影可以替代测试,尽管它成本更低,使疲软的建议对其使用侵入性冠状动脉造影。这个建议之前,从大量的假阳性和缺失的风险可以有效治疗疾病患者(假阴性)。它也遵循证据的新的测试只是低质量和考虑价值观和偏好。尽管一般倾向于微创测试并发症的风险较低,大多数病人可能会支持更多侵入性的方法(造影)。这种推理源于一种假设病人将更看重保障缺失或冠状动脉疾病的存在,和建立风险降低策略,避免血管造影术的并发症。指导板考虑使用冠状断层而没有直接冠状动脉的成像(例如,在设置不足进入电脑断层血管摄影,不是一个替代血管摄影但诊断工具)可能会发现高质量的证据,强烈建议使用识别患者可以称为血管造影术和进一步治疗。
另一种概念化的方式制定的强和弱推荐与图2⇑。下面的测试策略,导致病人移动测试阈值以上治疗阈值(考虑到有效治疗存在)往往会导致强烈的建议。
此外,建议诊断测试的用户应该检查是否预先测试概率范围适用。疾病的可能性(患病率或预先测试概率)的病人在他们面前往往会影响一个真正积极的概率或假阳性病人的测试结果。建议数量与不同的基线风险或疾病的可能性可能会因此是合适的。特别是,建议筛查(低风险人群)将几乎总是不同于建议使用一个测试诊断疾病的病人的数量被怀疑。
最后,个人临床医生和病人一起将建立治疗和测试阈值的基础上,个体病人的价值观和偏好。例如,冠状动脉造影患者反对的风险可能会选择计算机断层扫描血管造影成像,而大多数患者反对假阳性和阴性的风险,高度重视保障和冠状动脉疾病的知识,并且愿意接受血管造影的风险将会选择一个代替计算机断层扫描血管造影。至于其他建议,病人的价值观和偏好的勘探和集成开发和实现关键诊断测试的建议。
结论
等级分级方法的证据质量和推荐强度诊断测试提供了一个全面和透明的方式来开发这些建议。我们已经提供了一个概述的方法,根据测试结果的识别病人的替代标记物的好处。方法需要一个转变的应用在临床医生的思维明确地认识到,无论他们的准确性、诊断测试的价值只有在导致患者的改善结果。
脚注
这是第四个在一系列的5篇文章,解释了等级评级评分系统的证据的质量和强度的建议
我们感谢很多人,并组织了年级的进展通过资助的会议和反馈方法在本文中描述的工作。
年级工作组的成员参与这项工作是男性菲尔艾德森,巴勃罗Alonso-Coello,杰夫•安德鲁斯大卫·阿特金斯希尔达Bastian汉斯啤酒,Jan Brozek弗朗索瓦丝Cluzeau,乔纳森•克雷格·本·Djulbegovic Yngve Falck-Ytter,比阿特丽斯发烧,Flottorp负号,保罗•Glasziou戈登•H Guyatt罗宾港湾,玛格丽特泛滥平原,马克希尔芬迪,苏山,罗马Jaeschke,凯瑟琳•琼斯,Ilkka Kunnamo, Regina昆兹亚历山德罗Liberati,梅西Marzo,詹姆斯·梅森Jacek Mrukowics,安德鲁·奥克斯曼,苏珊•诺里斯维维安·罗宾逊,Holger J Schunemann泰Tan托雷斯,大卫•Tovey彼得•特格韦尔剧中Tuut,海伦娜Varonen Gunn E考察,克雷格•卫丁顿约翰•威廉姆斯和詹姆斯·伍德考克。
贡献者:列出所有作者和其他年级工作组的成员,导致思想的发展在手稿,手稿和阅读和批准。hj写第一稿,整理代码开发者和评审者的评论为后续迭代。所有其他作者列出了关于结构和内容,并提供反馈。hj担保人。
资金:这部分工作是由一个“人类因素,流动性和居里夫人的行为科学家重返社会”欧洲委员会格兰特:IGR hj 42192 -“年级”。
利益冲突:作者是年级工作组的成员。可能与这一组先进的部分或全部的职业生涯作者和小组成员。作者署名收到中列出的旅费和酬金的陈述,包括审查等级的分级方法的证据的质量和强度的建议。温室气体作为现时的顾问;他的工作包括帮助现时的使用等级。hj是文档编辑和美国胸科学会方法学家;他支持的实现年级和全球其他组织。VMM支持级的实现在几个北美专业组织不是为了获利。
出处和同行评审:不是委托;外部同行评议。