抽象的
2019年冠状病毒疾病(Covid-19)在全球范围内传播,许多地区的医疗资源变得不足。快速诊断Covid-19并寻找预测预测预后更糟糕的高风险患者和医疗资源优化是重要的。在这里,我们提出了一种全自动深度学习系统,用于通过常规使用计算机断层扫描来实现Covid-19诊断和预后分析。
我们回顾性收集了来自7个省市的5372例患者的ct图像。首先,利用4106例ct图像对深度学习系统进行预训练,使其学习肺部特征。随后,来自6个城市或省份的1266名患者(924名COVID-19患者(471名进行了>5天的随访)和342名其他肺炎患者)参加了深度学习系统的培训和外部验证。
在四个外部验证集中,深度学习系统在识别来自其他肺炎(AUC 0.87和0.88)和病毒性肺炎(AUC 0.86)中的Covid-19的良好性能。此外,深度学习系统成功地将患者分析为病房停留时间差异显着差异的高风险群体(P = 0.013和P = 0.014)。如果没有人为援助,深度学习系统会自动集中在出现一致的特征的异常区域,报告的放射发现。
深度学习为快速筛查COVID-19和识别潜在高危患者提供了便利工具,有助于优化医疗资源,在患者出现严重症状前进行早期预防。
抽象的
一个全自动深度学习系统为Covid-19诊断和预后分析提供了一种方便的方法,可以帮助Covid-19筛选和发现预后更差的潜在高风险患者https://bit.ly/3braxgw.
介绍
2019年12月,2019年新型冠状病毒疾病(Covid-19)发生在中国武汉,并成为全球卫生紧急情况,非常快速地与> 17万人感染[1-3.].由于其高感染率,快速诊断和优化疫区医疗资源配置刻不容缓。准确、快速诊断COVID-19有助于隔离感染患者,减缓疾病的传播。然而,在疫情地区,医疗资源不足已成为一个巨大的挑战[4.].因此,寻找具有较差的预后的高风险患者,以对先前的医疗资源和特殊护理对Covid-19的治疗至关重要。
目前,逆转录(RT)-PCR被用作诊断COVID-19的黄金真理。然而,RT-PCR的敏感性有限,且疫区检测工具短缺,增加了筛查负担,许多感染者无法立即隔离[5.那6.].这加速了Covid-19的传播。相反,由于缺乏医疗资源,许多受感染的患者无法接受立即治疗。在这种情况下,寻找早期治疗和早期预防预后的高风险患者是重要的。因此,快速诊断和寻找预后更严重的高危患者对Covid-19的控制和管理非常有帮助。
近年来的影像学研究表明,计算机断层扫描(CT)对COVID-19具有重要的诊断和预后价值。例如,CT诊断COVID-19的敏感性远高于RT-PCR [5.那6.].对于COVID-19患者,CT图像中经常观察到双侧肺磨玻璃混浊病变[6.-8.].即使在无症状患者,连续CT也观察到异常和改变[9.那10].作为一个常见的诊断工具,CT容易且快速地获取,而无需增加大量成本。建立使用CT成像的敏感诊断工具可以加速诊断过程并与RT-PCR互补。然而,预测使用CT成像的个性化预后可以识别更有可能变得严重和需要紧急医疗资源的潜在高风险患者。
深度学习(DL)作为一种人工智能方法,在利用CT图像辅助肺部疾病分析方面显示了良好的结果[11-15].DL得益于较强的特征学习能力,可以自动从CT图像中挖掘与临床结局相关的特征。DL模型学习到的特征可以反映人类难以感知的高维抽象映射,但与临床结果密切相关。与已发布的DL模型相比[16那17]我们的目标是为Covid-19诊断和预后分析提供全自动的DL系统。在不需要任何人类辅助注释的情况下,这种新型DL系统在临床用途中是快速且稳健的。此外,我们收集了一个大型多区域数据集进行培训和验证所提出的DL系统,其中包括来自六个城市或省份的1266名患者(471人随访)。值得注意的是,不同于使用自然图像转移学习的许多研究。我们收集了一个大型辅助数据集,包括4106名胸部CT图像和基因信息,以预先培训DL系统,旨在使DL系统学习肺部功能,可以反映微级肺功能异常和胸部CT图像之间的关联。
方法
研究设计和参与者
七家医院的机构审查委员会(补充方法S1)批准了这项多区域回顾性研究,并放弃了获得患者知情同意的需要。在本研究中,我们收集了两个数据集:COVID-19数据集(n=1266)和ct -表皮生长因子受体(EGFR)数据集(n=4106)。最终纳入1266例符合以下纳入标准的COVID-19患者:1)RT-PCR确诊的COVID-19;2) 2019年12月前实验室确诊的其他类型肺炎;3)诊断时胸部CT无增强。由于RT-PCR假阴性率较高,我们在2019年12月COVID-19未出现之前收集了其他类型的肺炎,以确保典型肺炎的诊断正确。在COVID-19数据集中,来自武汉和河南的患者组成训练集;安徽省患者形成外部验证集1;来自黑龙江省的患者形成验证集2;来自北京的患者形成验证集3; and patients from Huangshi city formed the validation set 4 (图1).
在CT-EGFR数据集中,最终纳入4106例符合以下标准的肺癌患者:1)获得EGFR基因测序;2) EGFR基因测序前4周内无增强胸部CT数据。使用CT-EGFR数据集对DL系统进行辅助训练,使DL系统自动学习肺特征。有关COVID-19的CT扫描参数和CT- egfr数据集可在补充方法S1.
对于预后分析,使用471例Covid-19和定期随访至少5天。我们将预后结束事件定义为住院停留时间,从Covid-19诊断到患者从医院排出时确定(补充方法S2).住院时间短预后好,住院时间长预后差。住院时间较长的患者可能需要较长的康复时间,本研究定义为高危患者。这些患者需要优先医疗资源和特殊护理,因为他们更有可能变得严重。
该训练集用于训练所提出的DL系统;验证集1和2用于评价DL系统的诊断性能;验证集3和4用于评估DL系统的预后性能。
用于COVID-19诊断和预后分析的全自动DL系统
提出的DL系统包括三个部分:自动肺分割、非肺面积抑制和COVID-19诊断和预后分析。在该DL系统中,涉及到两个DL网络:用于胸部CT图像肺分割的DenseNet121-FPN和用于COVID-19诊断和预后分析的新型COVID-19Net。DL是一组层次神经网络,旨在学习原始数据与预期临床结果之间的抽象映射。将DL模型中的计算单元定义为层,并将其集成来模拟人脑的推理过程。主要的计算公式是卷积、池化、激活和批标准化,如补充方法S3.
自动肺分割
常用的胸部CT图像包括一些非肺区(肌肉,心脏,等。)和身体外的空白空间。专注于分析肺区,我们使用了一个全自动DL模型(Densenet121-FPN)[18那19在胸部CT图像中分割肺区域。该模型使用ImageNet数据集进行预训练,并在VESSEL12数据集(补充方法S4)[20.].
通过该自动肺分割程序,我们在CT图像上获得了肺掩膜。然而,DenseNet121-FPN模型可能错误地排除了附着于肺壁的炎症组织。为了提高DL系统的鲁棒性,我们使用分割后的肺掩膜的立方体边界框对CT图像中的肺区域进行裁剪,并将该立方体肺区域定义为感兴趣的肺区域(lung-region of interest, ROI) (图2).在这个肺- roi中,所有的炎症组织和整个肺都被正确保留,肺外大部分区域被清除。
Non-lung区域抑制
在上述加工后,一些非肺组织或器官(例如脊柱和心脏)在肺内- roi也可能存在。因此,我们提出了一种非肺区抑制手术,抑制肺- roi (补充方法S4).最后,通过z-score归一化对肺roi进行标准化,并将其调整为48×240×360体素的大小进行进一步处理。
DL模型用于COVID-19诊断和预后
非肺区抑制手术后,将标准化的肺roi发送至COVID-19Net进行诊断和预后分析。图2图示了所提出的新型Covid-19Net的拓扑结构(表S1).该DL模型使用了类似于densenet的结构[18]由四个密集块组成,其中每个密集的块是多堆叠卷积,批量归一化和relu激活层。在每个密集的块内,我们使用密集的连接来考虑多级图像信息。在最后一个卷积层的末尾,我们使用全局平均池来生成64维DL功能。最后,输出神经元完全连接到DL特征以预测输入患者具有Covid-19的概率。
为了使Covid-19Net能够学习与Covid-19相关的歧视特征,需要一个大型训练集。因此,我们提出了两步转移学习过程。首先,我们提出了一种使用大型CT-EGFR DataSet(4106名患者)所示的辅助训练过程图2.在这种辅助训练过程中,我们培训了Covid-19net,以预测使用肺-ROI预测EGFR突变状态(EGFR-突变体或EGFR野生型)[11].得益于庞大的CT- egfr数据集,COVID-19Net学习了CT特征,可以反映微观水平的肺功能异常和宏观水平的CT图像之间的关联。
在第二次培训过程中,我们将预先训练的Covid-19Net转移到Covid-19数据集以具体与Covid-19相关的矿井肺部特性。在Covid-19数据集中迭代培训过程之后(补充方法S5), COVID-19网络可预测输入患者感染COVID-19的概率;本研究将此概率定义为DL评分。
为了探讨DL特征的预后价值,我们从covid -19网络中提取64维DL特征进行预后分析。首先,我们将64维DL特征与临床特征(年龄、性别和共病)相结合,构建联合特征向量。之后,我们使用逐步方法选择预后特征。然后用这些选定的特征建立一个多变量Cox比例风险模型[21来预测病人需要长时间住院才能恢复的风险。
可视化DL系统学习的肺部特征
通过两步转移学习技术,DL系统学习来自CT图像的4815名患者的肺特征。为了进一步了解DL系统的推理过程,我们使用了DL可视化算法来分析Covid-19Net从两个视角分析特征:1)可视化DL-Sainloised可疑的可疑肺部区域,这些可疑肺区有助于识别Covid-19DL系统;2)可视化Covid-19Net中的分层卷积层提取的特征模式(补充方法S6和S7).
统计分析
采用受试者工作特征(ROC)曲线下面积、准确性、敏感性、特异性、f1评分、标定曲线和Hosmer-Lemeshow试验评价DL系统诊断COVID-19的性能。采用Kaplan-Meier分析和log-rank检验评估DL系统的预后分析性能。DL系统的实现使用了Keras 2.3.1工具包和Python 3.7 (https://github.com/wangshuocas/covid-19).
结果
提出了Covid-19数据集患者的临床特征表格1.本数据集收集于中国包括武汉市在内的6个省市。
DL系统的诊断性能
表2.和图3说明了DL系统的诊断性能。在培训套装中,DL系统显示出良好的诊断性能(AUC:0.90,敏感性:78.93%,特异性:89.93%)。在两个外部验证组(AUC:0.87和0.88中进一步确认了这种性能;敏感性:80.39%和79.35%;特异性:76.61%和81.16%)。DL评分揭示了三个数据集中的Covid-19和其他肺炎组(P <0.0001)之间的显着差异。验证组中的良好性能表明DL系统通知井诊断未经申请的新患者的Covid-19。同时,我们说明了三个数据集中DL系统的ROC曲线图3A,和DL系统在两个验证集的校准曲线图3B..良好的校准图3B.表明DL系统未在预测或过度预测中系统地没有,因为Hosmer-Lemeshow测试在两个验证集中分别产生了对完美模型的非显着统计数据(P = 0.133和0.229)。在大型CT-EGFR数据集中的辅助训练过程中受益,DL系统的泛化能力在没有辅助训练的情况下与DL系统相比,改善了(表S2).
在其他类型的肺炎中,病毒性肺炎具有与Covid-19类似的放射学特征,因此更难以识别。因此,我们在验证组2中进行了分层分析。表1表明DL系统还达到了良好的结果,将Covid-19区分为其他病毒肺炎(AUC = 0.86)。
DL特征的预后价值
在Covid-19数据集中,471名患者有以下> 5天的随访。通过逐步预后特征选择,选择了三个特征(表S3).将这些选定的预后特征输入多变量Cox比例风险模型,以预测每个患者的风险值。我们使用训练集危险度的中位数作为临界值,将患者分为高危险度组和低危险度组。这个截止值也应用于验证集3和4。kaplan meier分析图S1结果显示,高、低危组患者在三个数据集的住院时间差异有统计学意义(p<0.0001, p=0.013, p=0.014, log-rank检验)。这些结果提示DL特征对COVID-19有潜在的预后价值。
DL系统发现可疑肺区
通过DL可视化算法[22那23,我们就能看到DL系统最受关注的肺部区域。这些DL发现的可疑肺区域通常表现出与放射科医生发现一致的异常特征。图4图中DL发现了8名COVID-19患者的可疑肺区域。从图中我们可以看出,虽然DL系统的输入肺- roi包括一些非肺组织,如肌肉和骨骼,但DL系统始终可以聚焦在肺内部区域进行预测,而不会受到其他组织的干扰。
DL发现可疑肺区与实际炎性区高度重叠。图4一-h表明,尽管我们没有涉及DL系统中的任何人类注释,但DL系统将自动聚焦在接地玻璃透明度区域上的推理。这与放射科医师的经验一致,许多Covid-19患者所示的地玻璃不透明度特征[6.那9.].在图4i.-P,DL发现了分布在双侧肺上的可疑肺部,主要集中在具有固结,玻璃不透明度,弥漫性或混合模式的病变上。比较这些DL发现具有实际异常肺区的可疑肺区时,我们发现高重叠和一致性。
虽然我们没有使用人类注释(例如该系统能够自动发现肺的异常和重要区域。这种现象可能来自于使用大型CT-EGFR数据集和大型COVID-19数据集进行培训的优势。
DL功能可视化
由于DL是直接学习肺CT图像和Covid-19之间的抽象映射的端到端预测模型,解释DL系统的推理过程有助于。DL模型中最重要的组成部分是卷积滤波器。因此,我们可视化由分层卷积层提取的三维特征模式图5.浅卷积的层学习了低级简单功能,例如主轴边缘(图5A)及波状边缘(图5B.).更深层次的卷积层学到了更复杂和详细的功能(图5C.).更深入时,特征模式变得更加抽象,缺乏视觉特征(图5D).然而,这些高级特征模式与Covid-19信息更相关。
在DL模型的末尾,将卷积滤波器的输出压缩成64维向量,其被定义为DL特征。在图5E.,我们将64维DL特征缩短为二维空间,以便在两个类中查看DL功能分布(Covid-19相对其他类型的肺炎)。该图证明,两种类别在DL特征空间中分开分开,这意味着DL特征是识别来自其他类型肺炎的Covid-19。
讨论
在本研究中,我们提出了一种新的全自动DL系统,使用原始胸部CT图像来帮助COVID-19诊断和预后分析。为了让DL系统自动挖掘肺特征而不需要耗费时间的人工标注,我们使用了两步迁移学习策略。首先,我们收集了4106例肺癌患者的CT图像和EGFR基因测序。通过在这一庞大的CT- egfr数据集上的训练,DL系统学习到分层肺特征,能够反映胸部CT图像与肺微水平功能异常之间的关联。随后,我们从6个城市或省份收集了一个大的多区域COVID-19数据集(n=1266),以培训和验证DL系统的诊断和预后性能。
DL系统的良好诊断和预后性能说明DL可能有助于Covid-19的流行控制,而不会增加大量成本。鉴于疑似患者,可以在几分钟内获得CT扫描。然后,该DL系统可以应用于预测患者具有Covid-19的概率。如果患者被诊断为Covid-19,则DL系统也同时预测其预后情况,可用于找到需要紧急医疗资源和特别护理的潜在高风险患者。更重要的是,该DL系统快速,不需要人们辅助图像注释,这增加了其临床价值并变得更加坚固。对于患者的典型胸部CT扫描,DL系统用于预后和诊断预测的小于10秒。
在构建和训练DL系统的过程中,我们没有涉及任何人工注释来告诉系统炎症区域在哪里。然而,DL系统成功地自动发现了与COVID-19密切相关的重要特征。在图4,我们可视化DL发现DL系统用于推理的可疑肺区。这些DL发现可疑肺区具有高重叠与放射科医师使用的实际炎症区域进行诊断。在以前的研究中,据报道,一些放射性特征如地面玻璃不透明,疯狂铺设模式和双边参与对于诊断CVOID-19来表示重要意义[7.].在DL发现可疑的肺区,我们还观察到这些放射性特征。这表明DL系统开采的高维特征可能反映这些报告的放射性发现。
最近,有报道称,不同流程和模型的深度学习方法可用于CT图像诊断COVID-19。这些方法可分为三类。1)使用手动或自动分割病灶进行诊断。W.盎等.[16使用手动注释的病变作为投资回报率,而修改的Resnet34模型与决策树和Adaboost分类器相结合用于诊断Covid-19。为避免耗时的辐射学患者的病变注释,自动病变分段模型[17那24]被用于进一步的研究。随后,利用病变图像,利用3DResNet等三维CNN模型进行COVID-19诊断。2)使用二维肺图像切片训练DL模型。由于病变可以分布在肺部的多个位置,自动病变分割不能保证很高的精度。更多的研究使用全肺图像切片进行分析。在S昂等.[25],采用以ResNet50为骨干的特征金字塔网络对整个肺区域的二维图像切片进行分析。同样的,我在等.[26使用DeepLabv1和L一世等.[27从CT图像中使用U-Net到段肺,然后使用二维Reset模型来分析肺区的图像片。3)使用三维DL模型来分析CT图像中的整肺。考虑整个肺,Z的三维信息恒等.[28]采用3DResNet模型分析CT图像中的三维肺区域。
与这些研究相比,我们的研究有三个主要差异。1)我们使用全肺三维边界框作为ROI,而不是单纯使用病变或肺节段野。由于病变分割不能保证很高的准确率,不准确的病变分割可能导致信息丢失。与肺损伤分割相比,肺分割更容易,对整个肺进行分析可以挖掘更多的信息。然而,与仅使用肺段的方法不同[25那27],我们使用肺三维边界盒作为ROI。在图S2,我们说明了肺部分割结果。在大多数情况下,肺部分割方法产生了良好的效果。然而,对于一些严重症状和固结病变的患者,肺部分段方法的性能可能受到影响。因此,我们使用分段肺面膜的三维边界盒作为投资回报率,这确保了覆盖完全肺区的肺投资回报率。结合非肺区抑制策略,肺投资回报率可以储备完整的肺区,并抑制肺区外的图像。2)我们使用了一个大型辅助数据集,包括4106名患者的胸部CT图像预先培训拟议的Covid-19Net,使其学习肺部功能。许多存在的研究使用了在想象数据集中预先培训的DL模型,这可能会增加DL模型的泛化能力。然而,想象成数据集中的自然图像对胸部CT图像具有很大的差异。因此,使用胸部CT数据集进行辅助训练(预训练),使DL模型能够学习更具体到胸部CT图像的功能。3)大多数研究使用了小型数据集和随机选择的验证数据。 To assess the generalisation ability of the deep learning model, we used a large dataset and two independent validation sets from different regions.
尽管DL系统表现良好,但该研究具有几个限制。首先,还有其他预后的最终事件,如死亡或入场费,并在这项研究中被考虑。其次,严重和轻度Covid-19的管理是不同的,因此,探讨这两组的Covid-19预后分别应该有所帮助。然而,本研究包括不同切片厚度的CT图像。在未来,我们将使用生成的对抗网络将不同的片厚度的CT图像转换为具有统一切片厚度的CT图像,这可以进一步提高DL系统的诊断性能。
补充材料
可分享的PDF.
致谢
感谢所有合作医院的数据收集,特别感谢中国医学科学院肿瘤医院的双燕。
脚注
这篇文章有补充资料可从www.qdcxjkg.com.
作者贡献:查元、田俊是本研究的构思和设计者。Wang S.实现了DL系统并撰写了论文。Wu q, Zhu Y., Wang L.对数据处理和分析有贡献。牛敏,余辉,龚伟,白玉英,邱旭东,李磊,李旭东,王敏,李辉,李伟对资料收集有贡献。
利益冲突:王思聪没有什么可透露的。
利益冲突:查耀没有什么可透露的。
利益冲突:W.李没有披露。
利益冲突:吴谦没有什么可透露的。
利益冲突:X. Li无需披露。
利益冲突:M. Niu没有什么可披露的。
利益冲突:王淼没有什么可透露的。
利益冲突:X.邱无所事事。
利益冲突:H. Li没有什么可披露的。
利益冲突:H. Yu没有什么可披露的。
利益冲突:W.Gong无需披露。
利益冲突:Y. Bai无意义。
利益冲突:李没有什么可透露的。
利益冲突:朱元璋没有什么可披露的。
利益冲突:王磊没有什么可透露的。
利益冲突:田君没有什么可透露的。
支持声明:本文得到了中国国家自然科学基金的支持,在拨款号81930053,81227901,81871332,61871332,61936013和81771806,中国的国家重点研发计划在拨款号2017YFA0205200,新型冠状动脉肺炎急救科技会原体项目湖北省在拨款号2020FCA015下。本文的资金信息已存入Crossref资助者注册表.还收到了在批准号2042020KFXG10下的中央大学的基础研究资金,湖北自然科学基金,湖北健康委员会一般方案和抗血吸虫病基金2019 - 2010年期间批准号WJ2019M043,北京市委员会批准号码2020-TG-002,youan医学发展基金拨款号Bjyayy-2020yc-03和中国博士后科学特别基金会拨款号2019TQ0019。
- 收到了2020年3月19日。
- 公认2020年5月16日。
- 版权©2020人队
此版本在Creative Commons归因非商业许可证4.0的条款下分发。