摘要
我们的目标是开发一种深度学习算法来检测胸片上的10种常见异常(DLAD-10),并评估其对诊断准确性、报告及时性和工作流程有效性的影响。
对来自108 053名患者的146 717张x线片进行DLAD-10训练,使用基于resnet34的神经网络对10种常见的影像学异常(气胸、纵隔增宽、气腹、结节/肿块、实变、胸腔积液、线性不张、纤维化、钙化和心脏肿大)进行病变特异性通道训练。对于外部验证,DLAD-10在同一天计算机断层扫描(CT)确认的数据集(正常:异常53:147)和一个开源数据集(PadChest;正常:异常339:334),并与三位放射科医师进行比较。对另一个数据集进行了单独的模拟阅读测试,该数据集根据急诊科的真实疾病流行情况进行了调整,包括4个危重病例、52个紧急病例和146个非紧急病例。六名放射科医生参加了有或没有DLAD-10的模拟阅读会议。
Dlad-10在CT确认数据集中的接收器操作特性曲线值0.895-100,在跨线数据集中的0.913-0.997。Dlad-10正确分类了比汇集放射科学家(84.4%(152/180); p = 0.01)的临界异常(95.0%(57/60))。在急诊部患者的模拟读数测试中,汇集读者检测到更为严重(70.8%(17/24)与29.2% (7/24);P =0.006)和紧急(82.7% (258/312))与78.2% (244/312);p=0.04) DLAD-10辅助时出现异常。DLAD-10辅助缩短平均值±sd紧急和危急x线片报告时间(640.5±466.3)与3371.0±1352.5 s和1840.3±1141.1与分别为2127.1±1468.2岁;均p<0.01),降低平均值±sd解释时间(20.5±22.8与23.5±23.7岁;p < 0.001)。
dlad10表现优异,提高了放射科医师的工作能力,缩短了危重急诊病例的报告时间。
摘要
在146 717张影像中训练了一种深度学习算法,检测出10种常见异常,在胸片上表现出色,帮助放射科医生提高了工作效率,并提前了危重或紧急病例的报告时间https://bit.ly/3k8tz5p.
介绍
胸部x光片是最常用的放射检查[1,2],较大的工作负担阻碍了及时诊断,干扰了临床工作流程,增加了误诊率[3.].近年来,深度学习技术被广泛应用于胸片解读[4- - - - - -9].各种算法在基于特定任务的分析中表现出良好的性能,包括肺结节/肿块、气胸和肺结核的检测[5- - - - - -9].这些算法可能会提高放射科医生的检测性能,提高他们的信心,但这些算法是否能减少放射科医生的工作负担,促进及时诊断仍不清楚。
放射科医生对x线片的解释通常可分为四个过程:1)发现和定位临床相关异常,2)与既往x线片(如果有的话)比较,3)最终解释与鉴别诊断,4)生成放射学报告。在这项研究中,我们专注于第一步,并开发了一种自动算法,可以检测和定位胸片上常见的异常发现。已经报道了几种覆盖多种异常的算法,但发现的覆盖范围有限[10,11[与放射科医生相比,性能不令人满意[12,13].
因此,我们的研究目的是开发一种基于深度学习的算法用于10种常见的放射异常(DLAD-10),并评估和比较其与放射科医生的表现。此外,我们还研究了DLAD-10是否能够提高放射科医师对急诊患者模拟阅读测试的检测性能和工作流程效能。
材料和方法
这项回顾性研究由我们的机构审查委员会批准,并放弃了对患者知情同意的要求。
DLAD-10的发展
DLAD-10是针对10种异常而开发的,选择用于覆盖大多数胸部疾病[14]:气胸、纵隔增宽、气腹、结节/肿块、实变、胸腔积液、线状不张、纤维化、钙化、心脏肿大。这些异常的定义是根据弗莱舍协会的术语[15].具体而言,“纵隔扩展”表明主动脉阴影的扩大,表明主动脉疾病[16],“纤维化”提示局灶性纤维化改变而非弥漫性网状混浊,提示间质性肺疾病[15].研究设计总结在图1.
开发数据集
对于DLAD-10的发展,需要146 717张胸片(143 768张前后位和2949张前后位投影;108 053例患者(男性55 394例,女性52 659例;均值±sd2004年3月至2017年12月期间,从首尔国立大学医院(Seoul, Republic Korea)回顾性收集的患者(年龄56.1±14.5岁)补充表E1查阅胸片扫描器资料)。其中一些数据集用于我们之前的研究[6,11,但算法被重新设计并训练以执行不同的任务。每一张胸片都由20名经委员会认证的放射科医生中的至少一名进行审查(标签组;7-14年的经验),对10种异常分别进行图像级标记。每个异常随后由标记组定位(像素级标注)(详细描述见补充材料).培训以半监督的方式进行,所有x光片对10个异常至少有一个标签,但有些没有标注确切位置。有关胸片数目的详情,请参阅补充表E2.
外部验证
外部验证使用两个独立的数据集进行。首先,一个由190名患者(101名男性和89名女性;均值±sd年龄为59.4±14.5岁),并以当日CT扫描为参考标准,收集自首尔国立大学医院(SNUH数据集)。数据集由一名胸廓放射科医生(J.G.N.;(6年经验)每种异常应包含20-40张胸片;对每种异常连续选择病例(补充表E3).贲门扩大的参考标准仅适用于前后图像(n=169),按胸廓比(截断0.5)[21,22],其他9种异常均参照CT检查。另外,由标签组标记的673张胸片组成的开放数据集(PadChest)用于其他外部验证试验[23].个别异常的胸片数目见补充表E3.
使用190个同一天ct确认的数据集(SNUH数据集),我们进行了阅读器测试,其中三位胸外科医生(j.h.h.、J.H.L.和E.J.H.;7-10年经验)参与与DLAD-10的比较分析。在算法开发过程中,这三名放射科医生没有参与标记过程。每位放射科医生分别回顾了190张胸片,并决定每张胸片上是否存在每种异常。
急诊病人模拟阅读测试
模拟阅读测试的数据集
为探讨DLAD-10在实际临床情况下对诊断准确性、临床相关疾病的及时诊断及工作流程效能的提升效果,收集了2018年在首尔大学医院急诊科就诊的患者当天进行CT扫描作为参考标准的胸部x线片(补充表E4).在1178例患者的1455张胸片中,202张胸片来自202例患者(男性95例,女性107例;均值±sd选择57.6±17.9岁以匹配先前报道的患者疾病患者访问急诊部门的患病率[24].其中72.3%(146/202)为临床无症状,27.7%(56/202)为临床相关,包括肺炎(35.7%(20/56))、肺水肿(10.7%(6/56))、活动性肺结核(7.1%(4/56))、肺间质病变(5.4%(3/56))、结节/肿块(17.9%(10/56))、无其他异常的胸腔积液(12.5%(7/56))。纵隔肿块(1.8%(1/56)),肋骨骨折(1.8%(1/56)),气胸(3.6%(2/56)),急性主动脉综合征(1.8%(1/56))和气腹(1.8%(1/56))。CT图像作为所有疾病的参考标准,PCR结果用于活动性肺结核。按照与异常分类相同的标准,将临床相关病例分为危重(气胸、主动脉夹层和气腹)和危重(肺炎、肺水肿、活动性肺结核、ILD、孤立性胸腔积液、纵隔肿块和肋骨骨折)疾病[25].
将DLAD-10集成到图片归档和通信系统和读者测试中
DLAD-10的结果被整合到我们机构的图片归档和通信系统(PACS) (Gx;(Infinitt Healthcare, Seoul, Republic Korea),以便读者根据异常发现或DLAD-10产生的概率评分,调整PACS上的工作列表,重新排列胸片的顺序。对于异常发现,最紧急的胸部x线片发现及其可能性显示在工作表上(补充图E2).当阅读器打开图像时,显示两张胸片:一张没有dlad10结果(原始胸片),另一张显示所有由dlad10定位的异常表现及其概率评分(图2).
六名阅读者参加了阅读者测试,其中包括两名胸科放射科医生(有7年经验)、两名经委员会认证的普通放射科医生(有6年经验)和两名有阅读急诊科胸片经验的放射科住院医师。没有一个读者参与了DLAD-10开发的标签过程。每位读者每隔4周对202张胸片进行两次解读,一次有dlad10结果(dlad10辅助阅读阶段),一次没有dlad10结果(常规阅读阶段)。常规阅读时,将202张胸片随机排列在PACS工作表中,由阅读者依次进行解读。在dlad10辅助阅读过程中,读者可以根据dlad10提供的紧迫性和概率评分重新排列胸片列表。他们被指示先解释较紧急的病例(补充图E2).报告的方式与急诊科的常规阅读过程相同。在检查图像后,每位读者都要写三到四行文字的正式报告,包括异常发现和可能的鉴别诊断。6位读者中有3位在dlad -10辅助阅读前进行常规阅读,而其他3位读者首先进行dlad -10辅助阅读(补充图E2).PACS记录每位读者解读每张胸片所花费的时间。根据这些记录,计算每张胸片的解读时间,以及从开始阅读阶段到解读每张胸片所花费的时间(报告时间)(补充图E2c).
统计分析
计算DLAD-10对内部验证数据集和两个外部验证数据集中每种异常的auroc值。约登指数对应的最优阈值[26从内部验证测试中获得了产生90%和95%敏感性和每种异常的95%敏感性和特异性的阈值,并应用于外部验证和模拟读取测试。将Dlad-10的敏感性和特异性与使用广义估计方程的外部验证测试中的汇集的三种放射科医生进行了比较。对于模拟读取测试,为DLAD-10和读者计算每种疾病的紧急分类精度。使用McNemar测试比较了两次阅读会话中读者的准确性。测量每个胸部射线照片所采取的解释时间和时间报告,并使用配对T检验进行两次读取会话之间进行比较。用Scikit-Seather版本0.19.0进行统计分析[27, MedCalc version 15.8 (MedCalc,奥斯坦德,比利时)和SPSS version 25 (IBM, Armonk, NY, USA)。
结果
内部验证测试
DLAD-10在内部验证数据集的auroc为0.893-0.996 (表1).根据其临床意义和敏感性/特异性选择各种异常的阈值:气胸0.38,气腹0.15,纵隔加宽0.21,结节/质量0.32,固结0.32,胸腔积液0.13,纤维化0.70,钙化0.67和心脏肿大0.15。选择高灵敏度阈值(灵敏度> 93%)用于临界(气胸,肺胆管内和纵隔扩展)或紧急(结节/质量,固结和胸腔积液)异常,选择高特异性阈值(特异性> 90%)用于非晶状体异常(线性大型,纤维化和钙化)(表1和图1).
外部验证测试
在ct确认的SNUH数据集中,DLAD-10显示每种异常的auroc为0.895(心脏扩大)至1.00(气腹),在PadChest数据集中为0.913(线性肺不张)至0.997(气胸)。表2).与胸部放射科医生相比,dlad10一般表现出更高的敏感性,而放射科医生的特异性更强(表3).对于大多数异常,DLAD-10表现出与放射科医生相当的auroc,而对于关键异常,大多数放射科医生的表现位于DLAD-10表现曲线以下(图3).DLAD-10正确分类的胸部x线片包含的严重异常优于联合放射科医生(95.0% (57/60))与84.4% (152/180);p = 0.01) (表3).然而,DLAD-10在对正常或非紧急病例的分类上不如联合放射科医师(80.0%(64/80))。与88.3% (212/240);p = 0.03)。
急诊病人模拟阅读测试
紧急分类精度
根据读者是否检测到与特定疾病实体相对应的紧急或紧急异常(紧急分类准确性)来评估紧急分类的性能(表4和补充表E5).没有Dlad-10(常规阅读),汇集读者只检测到29.2%(7/24)的关键情况,而他们检测到Dlad-10辅助读数会议中的70.8%(17/24)的危重病例(p= 0.03)。DLAD-10检测到所有关键案例,但有些人被读者忽略,特别是对于纵隔扩展(补充表E5).在紧急病例中,dlad -10辅助读数的检出率(82.7%(258/312))高于常规读数(78.2% (244/312));p = 0.04)。肺结节/肿块的表现增量最大(81.7%(49/60))。与70.0% (42/60);p = 0.04)。有趣的是,在DLAD-10协助下,非紧急/正常病例的分类准确率也有所提高(93.8%(822/876))。与91.4% (801/876);p = 0.03)。例子见图2 b和c。
时间到报告
在常规阅读过程中,平均值±sd紧急、紧急和非紧急/正常分类的报告时间分别为3371.0±1352.5、2127.1±1468.2和2815.4±1475.9 s。在DLAD-10辅助阅读过程中,通过将DLAD-10结果嵌入PACS工作表进行胸部x线片优先级排序,危急情况下报告时间显著缩短(640.5±466.3 s;P <0.001)和紧急(1840.3±1141.1 s;p = 0.002)情况下(表5),而非紧急/正常病例显著增加(3267.1±1265.7 s;p = 0.007)。
每张x光片的解释时间
平均值sd与传统读数会话相比,DLAD-10辅助读数会议中汇集读者减少的解释时间(每胸X X X22.8)与23.5±23.7岁;P <0.001), 6位读者中有5位平均口译时间较短。在DLAD-10的帮助下,合并的读者在非紧急/正常病例中花费的时间显著缩短(13.5±16.5)与17.9±16.4岁;P <0.001),危重症患者解读时间明显延长(36.7±24.4)与23.0±15.2岁;p = 0.01) (补充表E2).
讨论
在我们的研究中,DLAD-10在两个auroc范围为0.895 - 1.00的外部验证数据集中成功检测到10种常见异常。在ct参考的外部验证数据集上,DLAD-10对大多数异常表现出比胸部放射科医生更好的敏感性(8 / 10)。在急诊科患者的模拟阅读测试中,在dlad10辅助下,合并阅读器识别危重和紧急病例的准确率提高,非紧急/正常病例的假阳性率较低。在DLAD-10的帮助下,读者报告危急和紧急病例的时间大大缩短。在非紧急/正常情况下,合并的读者需要更短的解读时间,从而导致平均阅读时间的总体下降。
DLAD-10的开发是为了帮助放射科医生或内科医生进行常规临床实践。DLAD-10的训练数据大多由放射科医生整理,没有CT参考,目的是模仿放射科医生的表现,为读者提供合理输出[28,29].DLAD-10的另一个优点是它可以高精度定位大多数胸部异常。DLAD-10的这一特性可以进一步修改为端到端算法,从x线片生成初步的放射学报告,这可能会大大减少放射科医生的工作量。之前没有深度学习算法能够覆盖大多数临床相关的异常胸片与放射科医生水平的表现。以前报道的大多数胸部x光片深度学习算法专注于特定任务[5,6,9,10,对异常情况的报道不足[7,8或与放射科医生相比,其检测能力有限[12,13].
在本研究中,我们将DLAD-10结果集成到PACS工作列表中,并测试了深度学习算法作为优先级工具的潜力。我们发现,通过dlad10预分析重排胸片,可以更早报告危重或紧急胸片。我们还需要对周转时间进行进一步的前瞻性研究,但作为一份开创性的报告,我们的研究是有意义的,它展示了深度学习算法作为一种优先排序工具的潜在作用。
放射科医师的表现在不同数据集之间存在显著差异。在SNUH外部验证试验数据集中,胸科医生对关键胸片的检出率为84.4%(152/180),而在急诊患者模拟阅读试验中,胸科医生对关键胸片的检出率为50.0%(4/8)(合并6个阅读器组为29.2%(7/24))。这种差异可能反映了实验设计的阅读测试和真实的临床情况之间的差异。SNUH数据集包含31.6%(60/190)关键胸片,而模拟阅读测试数据集包含少量关键胸片(2.0%(4/202))。在模拟阅读测试中,DLAD-10与放射科医生之间的较高性能差距表明,DLAD-10在现实世界中可能有临床影响。
DLAD-10在外部验证和模拟读数测试中的特异性均低于放射科医师。由于选择DLAD-10用于危重和紧急异常的阈值是敏感的,因此其特异性必然低于放射科医生。然而,DLAD-10辅助降低了非紧急/正常病例读者的假阳性率(6.2%(54/876))。与8.6% (75/876);p=0.03),可能是因为DLAD-10的假阳性结果容易被丢弃(如。将线状肺不张误诊为实变或纤维化为结节)。
DLAD-10的进一步改进和修改是必要的。一些重要的异常,包括肋骨/椎体骨折和中央线/管错位,未包括在内。此外,dlad10并不能区分代表ILD和实变的弥漫性网状混浊。虽然DLAD-10在模拟阅读测试中成功检测到大多数ILD病例为弥漫性实变(66.7%(2/3)),但由于临床处理的不同,区分网状不透明与实变将是有益的。此外,鉴别诊断和间隔变化评估应包括在接下来的步骤。
我们的研究有一些其他限制。首先,我们的验证数据集回顾性收集,并且可能受到选择偏差的影响。其次,我们使用的紧迫性分类标准可能被其他研究人员争议。第三,Dlad-10没有涵盖横向图像。最后,基于胸部射线照片紧急的PACS的工作清单重排是一种新颖的特征,这可能对读者不熟悉。习惯于这种功能可能有助于进一步改善疗效。
总之,我们的DLAD-10深度学习算法检测10个常见异常在胸部射线照片上表现出优异的性能,帮助放射科医师提高他们的性能并提前报告时间,以进行关键和紧急情况。
补充材料
可共享的PDF
确认
作者想对参与模拟阅读测试的首尔国立大学医院(首尔,韩国)的Hyewon Choi, Seung-Jin Yoo, Sewoo Kim, Seungchul Han, Jihyuk Lee和Yuna Lee表示感谢。我们也感谢Lunit Inc.(韩国首尔)和Infinitt Healthcare(韩国首尔)为我们的验证测试提供技术支持。
脚注
作者贡献:J.G. Nam:数据整理、统计分析、手稿撰写;M. Kim:算法开发、手稿撰写(支持);J. Park:算法开发、手稿撰写(支持);E.J. Hwang:数据整理、验证试验、手稿编辑;J.H. Lee:数据整理、验证测试、手稿编辑;洪建华:验证试验,手稿编辑;J.M. Goo:指导,手稿编辑;研究概念和组织,监督,手稿写作。
这篇文章有补充资料可从www.qdcxjkg.com
利益冲突:J.G. Nam报告了科学与信息通信技术部资助的韩国国家研究基金会(NRF-2018R1A5A1060031)和首尔国立大学医院研究基金会(03-2019-0190)的资助。
利益冲突:M. Kim是Lunit Inc.的员工,参与了算法的开发和手稿的相应部分的编写,但没有控制任何提交出版的验证数据。
利益冲突:J. Park是Lunit Inc.的员工,参与了算法的开发和手稿的相应部分的编写,但没有控制任何提交发表的验证数据。
利益冲突:黄禹锡没有什么可披露的。
利益冲突:J.H. Lee没有什么可披露的。
利益冲突:J.H. Hong没有什么可披露的。
利益冲突:J.M. Goo没什么可透露的。
利益冲突:C.M.Park报道韩国国家研究基金会的报告由科学和信息通信技术部资助的(NRF-2018R1A5A1060031),以及首尔国立大学医院研究基金(03-2019-0190),在该研究期间。
支持声明:本研究获得韩国科学与信息技术部国家研究基金会资助(no . NRF-2018R1A5A1060031)和首尔国立大学医院研究基金资助(no . 03-2019-0190)。本文的资金信息已存入Crossref资助者注册表.
- 收到了2020年8月7日。
- 接受2020年11月3日。
- 版权©2021人队
本文是在知识共享署名非商业许可4188滚球软件.0的条款下开放获取和发布的。