文摘
背景提出了COVID-19预后模型的数量迅速增长,但尚不清楚是否适合广泛的临床实施。
方法我们独立外部验证性能候选人预后模型,确定了通过系统回顾生活,成年人连续住院COVID-19的最后诊断。我们重建的候选模型按原始描述和评估性能使用预测以承认原来的预期结果。我们评估了歧视、校准和净效益,而把所有的默认策略,没有病人,最歧视预测和单变量分析。
结果我们测试了22个候选人预后模型COVID-19的411名参与者中,其中有180(43.8%)和115年(28.0%)临床恶化的端点和死亡率,分别。接受者操作特征下最高的地区(AUROC)曲线是通过预测NEWS2得分恶化超过24小时(0.78;95%可信区间0.73 - -0.83),一种新的预测模型的恶化< 14天从入学(0.78;0.74 - -0.82)。最挑剔的单变量预测被录取为住院恶化室内空气氧饱和度(AUROC 0.76;0.71 - -0.81)和年龄的死亡率(AUROC 0.76;0.71 - -0.81)。没有预后模型演示了净利益始终高于这些单变量预测,通过一系列的阈值概率。
结论承认在室内空气氧饱和度和患者年龄是恶化的强烈预报和死亡率与COVID-19住院成人,分别。这里没有一个预后模型评估为病人提供了增量价值这些单变量预测分层。
文摘
血氧饱和度在室内空气和患者年龄是恶化的强烈预报和死亡率与COVID-19住院成人,分别。没有一个22预后模型评估在这项研究中添加这些单变量预测增量价值。
介绍
冠状病毒疾病2019 (COVID-19),造成的严重急性呼吸系统综合症coronavirus-2 (SARS-CoV-2),导致一系列的疾病从无症状感染到至关重要的疾病。人住院,COVID-19报告了21 - 33%的死亡率,14 - 17%要求配高依赖性或重症监护病房(ICU) [1- - - - - -4]。指数激增SARS-CoV-2传播,再加上一个子集之间的疾病严重程度的影响,对卫生服务通过威胁构成重大挑战压倒资源容量(5]。快速和有效的分流点表示医院因此需要促进适当的资源分配,并确保病人恶化的风险是适当的管理和监控。重要的是,在病人预后模型可能有额外价值分层对新兴药物疗法(6,7]。
因此,全球COVID-19[兴趣预测模型的发展8]。这些包括COVID-19模型旨在预测诊断、目标和预测模型,来预测疾病的结果。在写这篇文章的时候,生活系统回顾已经编目145诊断或预后模型COVID-19 [8]。这些模型的关键评估使用质量评估工具专为预测建模研究表明,开发的候选模型报道甚少,偏见和高危的高估他们的报道性能(8,9]。然而,独立评估候选人在未经选择的预后模型的数据集的缺乏。因此目前仍不清楚这些提议的模型执行在实践中,如何或是否适合广泛的临床实施。我们通过系统旨在解决这一知识差距评估提出的性能预测模型,在连续患者住院的最终诊断COVID-19在一个单一的中心,当使用预测以住院。
方法
候选人预后模型的识别
我们使用发表生活系统评价识别所有候选人预后模型在PubMed COVID-19索引,Embase, Arxiv, medRxiv,或者bioRxiv直到2020年5月5日,不管底层研究质量(8]。我们包括模型,旨在预测临床恶化或COVID-19患者死亡率。我们还包括预后评分中常用临床实践(10- - - - - -12),但不是专门为COVID-19发达的病人,因为这些模型也可能被视为供临床医生使用援助COVID-19患者的危险分层。对于每个模型确定候选人,我们提取的预测变量,结果定义(包括时间范围),建模方法,从最初的出版物和最终的模型参数,联系作者为需要额外信息的地方。我们排除了分数,底层模型参数并不是公开的,因为我们无法重现,以及模型包括预测还没有在我们的数据集。后者包括模型需要计算机断层扫描成像或动脉血气抽样,因为这些调查并不经常表现在没有COVID-19患者在我们的中心。
研究人群
我们的研究报告按照透明的报告个人预后和诊断的多变量预测模型(三脚架)指导外部验证研究13]。我们连续包括成年人承认伦敦大学学院医院的最终诊断PCR-confirmed(包括所有样本类型)或临床诊断COVID-19, 2月1日至2020年4月30日。因为我们试图使用数据从住院预测结果,我们排除了从其他医院,病人转移和院内COVID-19(定义为1日PCR拭子送检> 5天从住院日期,作为临床发病涉嫌代理SARS-CoV-2感染)。临床COVID-19诊断的基础上进行了人工记录的审核传染病专家,使用临床特征、实验室结果和放射性露面,在缺乏一个替代诊断。在研究期间,PCR检测的基础上进行临床怀疑,和没有例行SARS-CoV-2血清学调查。
数据来源和变量的兴趣
收集的数据直接从电子健康记录中提取,辅以人工管理。感兴趣的变量数据集包括:人口结构(年龄、性别、种族),并发症(通过手工记录审查确定),临床观察,实验室测量,放射学报告和临床结果。胸片报告都是由一个专家,他提供了一个简短的摘要指示的调查请求的时候,反映常规临床条件。胸片是胸成像条件的分类使用英国社会,和使用修改后的版本的影像学评估肺部水肿(罗音)得分14,15]。对于每一个预测,测量记录作为常规临床护理的一部分。我们连续测量,包括测量接近演讲的时候去医院,最大间隔24小时的表示和度量。
结果
模型使用ICU住院或死亡,或发展为“严重”COVID-19或死亡,作为复合端点中,我们使用一个复合端点作为主要结果“临床恶化”。我们定义临床恶化为起始的通气支持(持续气道正压、非侵入式通风、高流鼻插管氧气,侵入性机械通气或extra-corporeal膜氧化)或死亡,相当于世界卫生组织临床发展规模≥6 (16]。这个定义并不包括标准氧疗法。我们没有应用任何时间限制(a)的最小时间呼吸支持;或(b)表示医院和结果之间的时间间隔。此复合材料的基本原理的结果是使端点更generalisable中心之间,因为医院呼吸道管理算法可能大幅改变。定义结果基于级别的支持,而不是病房设置,也保证了它是适当的在大流行的背景下,当治疗通常只被认为是在ICU环境可能在其他环境管理由于资源约束。模型指定预期的时间范围在原来的描述,我们使用这在主分析的计算,以确保公正的评估模型校准。在预期的时间没有指定,我们评估模型来预测住院恶化或死亡,是合适的。所有恶化和死亡事件都包括在内,不管他们的临床病因学。
受试者随访临床的出院。我们后续超越放电重复检验NHS脊柱记录来确定出院后死亡报告,从而确保> 30天随访所有参与者。
统计分析
对于每个预后模型分析中,我们重建模型根据作者“原始描述,并试图歧视和校准性能评估模型的近似原始的目的端点。风险模型,提供在线计算器工具,我们验证重建模型与原始作者反复核查我们的预测模型,通过对基于web的工具生成的随机子集的参与者。
对所有模型,我们通过量化评估歧视接受者操作特征曲线下的面积(AUROC) [17]。概率模型,提供的结果分数,我们想象标定校准的预测评估与观察到的风险使用loess-smoothed情节,通过量化校准斜坡和calibration-in-the-large (CITL)。一个完美的校准斜率应该1;斜坡< 1表明风险估计太极端,而斜坡> 1反映了风险估计不够极端。理想CITL = 0;CITL > 0表明,预测系统的过低,虽然CITL < 0表明预测太高了。模型与积分分数,我们评估校准视觉通过绘制模型的分数与实际结果比例。对于提供概率估计模型,但该模型拦截并不可用,我们校准模型数据集通过计算拦截在使用线性预测模型作为补偿项,导致完美CITL。这种方法,根据定义,对CITL高估了校准,但允许我们检查校准斜率在我们的数据集。
我们也评估每个候选人的歧视模型标准化的结果:(a)复合端点的临床恶化;和(b)的死亡率,在一系列预先确定时间范围从入学(7天,14天,30天,住院期间任何时间),通过计算时间AUROCs(累积敏感性和动态特异性)(18]。这一分析的基本原理是协调端点,为了方便更多的候选模型之间的直接比较的歧视。
为了进一步的性能基准候选人预后模型,然后计算AUROCs为有限数量的单变量预测被认为是最高的重要性先天的根据临床知识和现有的数据,预测我们的复合端点的临床恶化和死亡率(7天,14天,30天,住院期间任何时间)。的先天的感兴趣的预测研究在分析年龄、临床脆弱,在介绍室内空气氧饱和度,c反应蛋白和绝对淋巴细胞计数(8,19]。
决策曲线分析允许评估候选人的临床效用模型,并依赖于模型的歧视和校准(20.]。我们执行决策曲线分析量化的净效益通过每个模型预测目标端点,以便通知临床决策一系列风险:受益比率的干预或“治疗”(20.]。在这种方法中,风险:效益比率是类似于上面的切割点一个统计模型的干预将是有益的(被视为“阈值概率”)。净效益计算敏感度×患病率——(1-specificity)×(1-prevalence)×w w是阈值概率和流行的几率是患者的比例有经验的结果(20.]。我们计算净收益在一系列临床相关阈值概率,从0到0.5,因为风险:受益比率可能不同对于任何给定的干预(或“治疗”)。我们比较每个候选人的效用模型对所有,没有患者的治疗策略,并对表现最好的单变量预测住院临床恶化,或死亡率,合适。确保公平,直接基于多变量概率模型之间的净效益进行了比较,指出分数模型和单变量预测,我们校准这些验证数据集决策曲线分析的目的。概率模型调整改装的验证数据逻辑回归模型与候选模型线性预测作为唯一的预测。我们计算“δ”净收益净收益时使用指数模型-净效益:(一)治疗所有患者;和(b)使用最有鉴赏力的单变量预测。决策曲线分析使用rmda在R(包21]。
我们采用多重填补方式处理缺失数据链方程(22),使用老鼠在R(包23]。所有的变量和结果在最后的预后模型包含在归责模式以确保兼容性(22]。总共有10估算数据集生成;歧视,校准和净收益指标是集中使用鲁宾的规则(24]。
所有的分析进行了R(3.5.1版)。
敏感性分析
我们重新计算歧视和校准参数为每个候选模型使用(a)一个完整的案例分析(针对大量missingness一些模型);(b)不包括病人没有PCR-confirmed SARS-CoV-2感染;和(c)不包括病人的临床恶化的结果在4 h到达医院。我们还研究了非线性的先天的单变量预测使用限制立方样条函数,用3节。最后,我们估计乐观的歧视和校准参数先天的单变量预测使用引导(1000次迭代),使用rms在R(包25]。
伦理批准
预先确定的研究协议批准东米德兰兹-诺丁汉2研究伦理委员会(REF: 20 / EM / 0114;ira: 282900)。
结果
总结候选人预后模型
我们确定了共有37个研究描述预后模型,其中19研究(包括22个独特的模型)都有资格列入(补充图1和表1)。其中,5模型并不特定于COVID-19,但开发作为急诊科与会者预后评分(26),住院患者(12,27],疑似感染患者[10]或[社区获得性肺炎11),分别。专门为COVID-19 17模型的开发,大多数(10/17)是使用数据集开发起源于中国。总的来说,发现人群包括住院病人和类似于当前验证人口除了使用社区的一项研究发现了一个模型数据(28),另一个使用模拟数据(29日]。共有13/22模型使用积分评分系统得出最终模型分数,其余部分使用逻辑回归建模方法获得概率估计。共有12/22预后模型主要旨在预测临床恶化,而其余10试图预测死亡率。当指定时间范围为预后范围从1到30天。候选人预后模型不包括在当前验证研究总结补充表1。
概述研究对象
在研究期间,521位成年人承认COVID-19的最后诊断,其中有411符合资格的标准包含(流程图所示补充图2)。队列的平均年龄是66岁(四分位范围(差)53 - 79),和绝大多数是男性(252/411;61.3%)。表2显示了基线人口统计学、并发症、实验室结果和临床测量研究的队列,其中大多数(370/411;90.0%)PCR-confirmed SARS-CoV-2感染(315/370(85.1%)是积极的在第一次PCR测试)。总共有180(43.8%)和115年(28.0%)的参与者满足临床恶化和死亡率的端点,分别高于100事件的最低要求推荐外部验证研究[30.]。临床恶化和死亡的风险下降以来配(平均1.4天恶化(差0.3 - -4.2);平均6.6天死亡(差3.6 - -13.1);补充图3)。大多数22预后模型的变量计算所需分数绝大多数参与者。然而,承认乳酸脱氢酶只是用于183/411(44.5%)和肺动脉栓塞测量为153/411(37.2%),导致重大missingness模型要求这些变量(补充图4)。
评价预后模型最初的主要结果
表3显示了歧视和校准标准,在适当情况下,22日评估预后模型主要的多元归责分析。达到了最高AUROCs NEWS2评分预测的恶化超过24小时(0.78;95%可信区间0.73 - -0.83),卡尔的“最终”预测模型的恶化超过14天(0.78;95%可信区间0.74 - -0.82)。其他预后评分目前用于常规临床实践、CURB65有AUROC 30天死亡率0.75 (95% CI 0.70 - -0.80),而qSOFA歧视的AUROC住院死亡率为0.6 (95% CI 0.55 - -0.65)。
所有模型提供概率得分恶化或死亡,校准出现视觉上可怜的过度拟合的证据和系统化的高估或低估的风险(图1)。补充图5显示与预后模型之间的关联积分分数和实际风险。除了证明合理的歧视,NEWS2和CURB65模型证明了近似线性分数和实际恶化的可能性之间的联系在24小时和死亡率在30天内,分别。
时间的歧视的候选模型和先验单变量预测标准化的结果
接下来,我们想要比较这些模型对临床恶化的歧视和死亡率在时间范围的范围,对预选的基准测试单变量预测与COVID-19[不良预后相关8,19]。为每个这些结果,我们重新计算时间AUROCs分层时间范围的结果(补充图6和图7)。这些分析表明,AUROCs通常拒绝随着时间范围。承认氧饱和度对室内空气是最强的预测住院恶化(AUROC 0.76;95%可信区间0.71 - -0.81),年龄是最强的预测住院死亡率(AUROC 0.76;95%可信区间0.71 - -0.81)。
讨论
在这连续的观察性队列研究成年人与COVID-19住院,我们系统地评估COVID-19 22预后模型的性能。这些包括专为COVID-19开发模型,以及现有的成绩在常规临床使用前大流行。预测的临床恶化或死亡率,AUROCs从0.56到-0.78不等。NEWS2表现相当不错的预测恶化24小时间隔,实现一个AUROC 0.78,而卡尔的“最终”模型(31日也有AUROC 0.78,但倾向于低估风险。所有COVID-specific模型,推导出一个结果恶化或死亡的概率显示可怜的校准。我们发现,血氧饱和度(AUROC 0.76)和患者年龄(0.76 AUROC)是最歧视单变量预测住院分别恶化和死亡率。这些预测有优势,他们立即在演讲的时候去医院。决策曲线分析,依赖于模型的歧视和校准,没有预后模型演示临床效用始终大于使用这些单变量预测提供决策依据。
虽然先前的研究主要集中在小说模型发现,或评估有限数量的现有模型,这是第一个研究我们的知识评价systematically-identified候选人COVID-19预后模型。我们使用一个全面的生活系统综述(8)来识别合格的模型和试图重建每个模型按照原始作者的描述。然后我们评估性能对其预期的结果和时间范围,只要有可能,建议使用外部验证的方法将评估的歧视,校准和净效益17]。此外,我们使用电子健康记录的数据捕获一个健壮的方法,由人工管理,以确保高质量的数据集,没有包容和连续COVID-19情况满足我们的合格标准。此外,我们使用健壮的结果测量的死亡率和临床恶化,将与世界卫生组织临床发展规模16]。
当前研究的一个弱点是,它是基于回顾数据从一个单一的中心,因此不能在模型性能评估之间的异质性。其次,由于定期收集数据的局限性,预测变量为每个模型可用于不同数量的参与者,与大部分missingness模型要求乳酸脱氢酶和肺动脉栓塞的测量。因此我们执行多个归罪,建议开发和多变量预测模型的验证,我们主要分析(32]。在完整的情况下灵敏度分析结果相似,从而支持我们的结果的鲁棒性。未来的研究将受益于标准化数据捕获和实验室测量前瞻性预测missingness降至最低。第三,大量的模型不能重建我们的数据。对于一些模型,这是由于缺乏预测在我们的数据集,例如那些需要计算机断层扫描成像,因为目前这不是常规推荐给患者疑似或确诊COVID-19 [15]。我们也不能包括模型参数的不公开。这凸显了需要严格遵守报告标准的多变量预测模型(13]。最后,我们使用录取数据只作为预测在这项研究中,由于大多数预后评分的目的是预测结果在住院的时候。然而,我们注意到,一些分数为动态设计住院病人监测、NEWS2显示合理歧视恶化24小时间隔,按原计划(27]。未来的研究可能将串行数据检验模型性能在使用这样的动态测量。
尽管巨大的全球利益追求COVID-19预后模型,我们的研究结果表明,没有一个COVID-19-specific模型评估在这项研究目前可以推荐常规临床使用。此外,尽管其中的一些评估模型并非特定于COVID-19通常使用和可能的价值在固定(12,27],疑似感染患者[10]或[社区获得性肺炎11),没有显示临床效用大于COVID-19患者中最强的单变量预测。我们的数据表明,进气氧饱和度的空气预示着临床恶化,可能会在将来的研究中评估分层社区住院管理和远程监控。我们注意所有小说COVID-19评估预后模型在当前的研究中来自只有数据。未来的研究可能寻求池数据从多个中心,以强劲的性能评估现有和新兴的跨异质种群模型,并开发和验证新的预后模型,通过个人参与者的数据分析(33]。这种方法允许评估之间的异质性和可能的候选人generalisability模型。还必须发现人口代表模型实现的目标人群,没有人群的包容。此外,我们强烈主张透明报告符合三脚架标准(包括建模方法,所有系数和标准错误)以及标准化的结果和时间范围,为了方便进行系统评估模型的性能和临床实用程序(13]。
我们得出这样的结论:基线氧饱和度对室内空气和患者年龄是恶化的强烈预报和死亡率,分别。没有一个预后模型评估在这项研究中为病人提供增量价值分层使用入学时这些单变量预测数据。因此,没有一个评估预后模型COVID-19可以为常规临床推荐的实现。未来的研究寻求COVID-19应该考虑开发预测模型集成的多中心数据为了增加generalisability的发现,并应确保基准对现有模型和简单的单变量预测。
确认
的UCLH COVID-19报告组组成的第二个人,谁参与了数据管理non-author贡献者:亚洲艾哈迈德,罗南·奥斯汀,马尔科姆•Avari Elkie英明Anisha Bhagwanani, Timothy Bonnici肖恩·卡尔森杰西卡·卡特,桑娅Crowe,马克·邓肯弗兰Espuny-Pujol,詹姆斯·富勒顿马克·乔治,乔治娜Harridge,阿里•Hosin雷切尔•哈伯德Adnan Hubraq, Prem Jareonsettasin Zella国王,Avi科曼,苏菲克里斯蒂娜,劳伦斯·兰利的雅克Meurgey,亨丽埃塔米尔斯,职Missaglia, Ankita Mondal,撒母耳模,克里斯蒂娜·佩格尔,李阳,Shivani帕特尔瓦涂涂,乔丹Poulos,露丝Prendecki,亚历山大•宝洁Magali泰勒,大卫·汤普森,露西Tiffen,汉娜赖特,卢克魏恩,杰森·杨,克劳迪娅Zeicu,雷雷朱
脚注
可以从本文的补充材料www.qdcxjkg.com
数据共享声明:监管审批的条件目前研究排除开放存取数据共享来减少病人的风险识别细粒度的个人健康记录的数据。188滚球软件作者将考虑特定请求数据共享的学术合作伦理批准按照GDPR规定和数据传输协议。
支持声明:这项研究是由国家卫生研究所(drf - 2018 - 11 - st2 RKG - 004;nf - si - 0616 - 10037 - IA),威康信托基金会(207511 / Z / 17 / Z MN)和一直支持由国家卫生研究所(NIHR)伦敦大学学院医院生物医学研究中心,特别是由NIHR UCLH / UCL BRC临床和研究信息单元。介绍了独立研究NIHR的支持。作者的观点是(s)和不一定NHS, NIHR或卫生部和社会关怀。资助者没有参与研究设计;在收集、分析和解释数据;在报告的写作;或决定提交出版的文章。威康信托基金会;DOI:http://dx.doi.org/10.13039/100004440;格兰特:207511 / Z / 17 / Z;研究学员协调中心;DOI:http://dx.doi.org/10.13039/501100000659;格兰特:drf - 2018 - 11 - st2 - 004, nf - si - 0616 - 10037。
作者的贡献:RKG和MN构思。RKG进行分析和写了初稿的手稿。所有其他作者的贡献对数据收集、研究设计和/或解释。所有作者都有批判性的评价和批准提交之前最后的手稿。相应的作者证明了所有作者列出符合作者的标准,没有其他会议的标准被省略了。的成员UCLH COVID-19报告了对数据管理和non-author贡献者/合作者在这项研究中。
利益冲突:古普塔博士没有披露。
利益冲突:马克斯没有披露。
利益冲突:塞缪尔博士没有披露。
利益冲突:Luintel博士没有披露。
利益冲突:兰普林博士没有披露。
利益冲突:Chowdhury博士没有披露。
利益冲突:Quartagno博士没有披露。
利益冲突:奈尔博士报告非金融AIDENCE BV的支持,授予NIHR伦敦大学学院的生物医学研究中心,提交工作;外。
利益冲突:Lipman博士没有披露。
利益冲突:Abubakar博士没有披露。
利益冲突:范博士Smeden没有披露。
利益冲突:黄博士没有披露。
利益冲突:威廉姆斯博士没有披露。
利益冲突:Noursadeghi博士报告来自威康信托基金会拨款资助来自国家健康研究所生物医学研究中心的伦敦大学学院NHS信托基金会,在进行这项研究的。
- 收到了2020年9月14日。
- 接受2020年9月17日。
- 版权©2020人队
这个版本分布在Creative Commons归因执照的条款4.0。