文摘
CT和PET被广泛用于描述孤立肺结节(spn)。然而,大多数CT准确性与过时的技术和方法研究已经执行,和以前的宠物研究一直受到小样本大小和不完整的屏蔽。我们的目标是比较CT和PET准确性与SPN退伍军人。方法:1999年1月至2001年6月,我们招募了532名参与者与spn新诊断放射学和治疗。spn 7-30毫米。所有患者接受18F-FDG PET和CT。一个蒙面3宠物和CT专家小组认为在5范围内研究。SPN组织诊断或2 y后续建立最终的诊断。结果:一个明确的诊断建立了344名参与者。恶性肿瘤的患病率为53%。平均大小为16毫米。似然比率(LRs)对PET和CT结果结合评级的绝对良性(分别为33%和9%的患者)或可能良性(27%和12%)分别为0.10和0.11,分别。LRs不定的PET和CT结果结合评级(1%和25%),可能恶性(21%和39%),或绝对恶性(35%和15%)分别为5.18和1.61,分别。接受者操作特征曲线下面积为0.93(95%置信区间,0.90 - -0.95)宠物为0.82(95%置信区间,0.77 - -0.86)CT (P< 0.0001的区别)。宠物国米,intraobserver可靠性优于CT。结论:肯定和PET和CT可能良性结果强烈预测良性SPN。然而,这样的结果是3倍的宠物。绝对的宠物更恶性结果预测恶性肿瘤CT比这些结果。恶性最终诊断是大约10倍良性最终诊断在参与者的宠物绝对评价恶性结果。
宠物进行使用18F-FDG被公认为一种成像方式的独特能力从正常组织的基础上区分恶性Warburg效应。肿瘤转换与糖酵解增加有关,因为进步三羧酸循环的损失(1)。糖酵解增加结果的放大葡萄糖转运蛋白在肿瘤细胞表面和增加各种关键酶的活动是一种最独特的恶性细胞的生化特征。
肺癌的诊断通常始于识别评价胸片或CT提示结节。CT是一个优秀的工具来检测和定位,但已被证明有特异性(58%)(2)结节的特征。宠物用18F-FDG在几项研究已经证明是一个有前途的兼职方式(3- - - - - -7)。最近的一项系统回顾报告汇集的敏感性和特异性(94.2%和83.3%8)。然而,该报告的作者指出,组件研究小样本大小限制,不完整的屏蔽,有偏见的病人选择。
本研究的主要目标是比较的准确性PET和CT在肺结节的特征进行前瞻性研究,解决以前的研究的方法学的局限性。
材料和方法
孤独的结节精度项目(临时)是一个前瞻性研究在全国10个退伍军人管理医院。研究设计和方法的细节提出了其他地方(9),但将简要回顾。研究的伦理行为和参与者的安全被提前批准和监控数据和安全监测委员会的人权委员会合作研究项目协调中心的退伍军人管理局,和每个参与的机构审查委员会的网站。
参与者的主要入口准则的新证据,未经处理的,孤独的肺结节(SPN) 7至30毫米大小后前位的和普通胸片的侧面图。所有spn的圆形或椭圆形,没有相关的肺不张或胸膜参与。古怪的结节,大小是基于平均直径(添加主要和次要的轴和除以2)。然而,无论是轴小于7毫米。
排除标准包括一个年龄不到21 y;怀孕或哺乳期;大于350 - 400磅的重量;并发肺部感染;胸手术在过去6个月;胸部放射治疗在过去的一年;拒绝接受活检、手术或临床随访2 y;的平均寿命不到2 y如果活检或手术不是预期;和参与其他退伍军人管理局合作研究项目。确定的SPN被称为目标结节。 Patients with nodules that were heavily calcified (high likelihood of being benign) or that fell outside the size criterion were not enrolled. Nodules smaller than 7 mm are poorly characterized by PET, and nodules larger than 30 mm are considered to be malignant until proved otherwise.
使用复合参考标准(10)。恶性的诊断建立了目标结节活检或手术切除。绝对评级“恶性”或“绝对良性”由当地病理学家,蒙面的CT和PET结果,参考标准。
活检或手术不执行时,受试者随访2 y,进行胸部x线摄影或CT每6 mo。如果SPN稳定在此期间,它被认为是良性的。为此,“稳定”被定义为小于1毫米大小的变化,减少大小没有治疗24 mo,或解决结节治疗(11)。
所有参与者接受了胸部和CT18F-FDG宠物。所有中心研究协议收购和处理的PET和CT的图像数据(9)。宠物相机的成像质量和分辨率证实了使用专门制作成像幻影分发给所有的研究地点。CT检查进行了指导方针显示美国放射学院(12)。进一步的细节我们成像协议可以在补充数据(补充材料只在网上http://jnm.snmjournals.org)。一个独立的研究小组读者建立了指数测试结果。该小组由3 CT公认的专家和公认的专家的宠物。都是基于学术医生,在他们的专业资格认证,广泛发表在他们的领域。没有参与的参与者,和所有人都不知道病人的历史除了提供的信息符合研究协议(即。胸片显示目标结节,与年龄、性别、吸烟史、和肺结核病人的状态)。专家组召开中央位置7倍从2000年2月到2003年7月。多个读者会话被限制的数量安排减少疲劳研究综述不超过100 /读者。综述了每个参与者的形象由各形态读者(即两倍。2宠物读者解释每个参与者宠物形象;和2 CT读者解释每个参与者CT图像)。PET和CT的读者被要求使用潜油电泵顺序量表评分:绝对良性的,可能良性的,不确定的、绝对可能恶性肿瘤,恶性肿瘤。 The PET and CT readers on the panel used the criteria shown in表1这些评级。读者之间的分歧并没有解决;相反,读者之一的决定为每个参与者中随机选择。我们采取这种方法,以更好地反映解释的方法在临床中看到。
Interreader可靠性评估的结果通过比较每一对的读者(即。PET和CT)独立研究小组的读者。Intrareader可靠性评估的研究地点。宠物或CT研究的收购后,当地放射学专家蒙面的方式或核医学解释结果与他们的发现记录在一个标准的形式吸附研究。在这个最初的阅读,当地的读者是蒙面除了能够看到胸片和年龄、性别、吸烟史。图像数据被提供给读者一个研究助理,没有其他信息。相同的过程重复了至少6个月后,和这两个读数比较估计intrareader可靠性。
快速的样本大小是基于主比较CT和PET的敏感性,调整引起的相关性能的测试在同一参与者。初步研究显示0.94的SE,恶性肿瘤患病率22%,小于0.30的相关性。根据这些和预期的利率敏感性的差异7%,900年的原始样本大小是选择(90%的力量和一个α为0.05)。然而,在数据和安全监测委员会的要求,临时检查假设进行分析,发现恶性肿瘤的相关性和患病率高于预期。结果,数据和安全监测委员会研究样本大小从900减少到400。PET和CT诊断准确性的估计计算对于参与者来说,有一个CT和PET阅读和一个有效的参考标准。对于每一个参与者,一双读者(PET和CT)和参考测试结果是随机选择,用来估计敏感性,特异性,和接受者操作特征(ROC)曲线;进一步的细节中可以找到这个方法之前报道的研究设计论文(9)。敏感性和特异性估计为每个级别的诊断信心(可能绝对良性的,良性的,不确定的,可能恶性,而且肯定恶性)。置信区间(CIs)的敏感性和特异性的估计是估计(13)。评级被一分为二,绝对良性和可能良性认为是负的,绝对和不确定的,可能恶性,恶性肿瘤被认为是积极的。间隔可能性比率(LRs) (14,15)计算(16)为每个级别的信心和对这些一分为二。ROC曲线,曲线下的区域(auc),和95% CIs派生形态与挑战它0.9 b (17多尔夫曼)作为描述和阿尔夫(18,19)。auc 2模式比较会计测试结果之间的相关性,因为每个参与者作为自己的控制(20.)。
估计潜在的偏见的敏感性和特异性评估使用敏感性分析。总之,当没有参考标准已经确定参与的一项研究中,参与者的研究记录和医疗记录,综述了现有的面板,包括研究联合主席和其他3个研究调查。这个小组建立了一个参考标准评级为参与者潜油电泵顺序量表(绝对绝对良性恶性),以系统的方式和敏感性和特异性都重新估计(补充数据提供一个完整的描述这个过程的)。
国际米兰,使用加权κ-statistic intrareader可靠性估计(21)。统计分析使用SAS 9.0 (SAS研究所)。
结果
招聘研究和参与者的性格非常详细图1。1999年1月至2001年6月,909人参与研究筛查。七十七个人被排除在外的基础上临床标准(例如,平均寿命小于2 y,结节,2 y不变,和之前的胸辐射),133年有一个SPN上看到只有1放射学的观点,和167不同意参与。同意参与的532人,32个没有合格的CT扫描,12没有合格的PET扫描,扫描16不读独立研究小组的读者因为技术原因与病人的临床状态无关,让472名参与者。其中,参考标准是获得了344名参与者。参考标准是184年获得的组织个人和完成2 y 160年随访。的参与者进行了活检,67%在60 d的第一指标测试。只有6%接受活检超过120 d从第一个索引的时间测试。
所有参与者的人口和临床特点的研究被独立小组阅读之前报道(9)和详细表1补充数据,比较那些有参考标准为谁没有参考标准。两组之间没有显著差异。
结节的特征详细表2。184年的恶性结节,35%是腺癌,30%是鳞状细胞癌,20%是其他非小细胞肺癌。代表转移性疾病肺结节代表总数的不到10%,不到2%的结节和支气管肺泡癌。明确良性的条件是已知的45 160良性结节;其余是按病理分类。所有结节的平均直径为16.4毫米。恶性结节的平均直径18.9毫米(SD, 6.8);良性结节,13.3毫米(SD, 5.2)。主要位置上肺结节的区域,有更多比左肺结节发现正确的。在左肺结节的人更容易比右边是恶性的,但这种差异没有统计学意义。
PET和CT的诊断准确性spn的特征描述表3。
似然比率(LRs)对PET和CT结果结合评级的绝对良性(分别为33%和9%的患者)或可能良性(27%和12%)分别为0.10和0.11,分别。LRs不定的PET和CT结果结合评级(1%和25%),可能恶性(21%和39%),或绝对恶性(35%和15%)分别为5.18和1.61,分别。与评级一分为二如前所述,宠物的敏感性为91.7%(95%可信区间,86.6% -95.0%)和特异性为82.3%(95%可信区间,75.4% -87.6%)。CT的敏感性为95.6%(95%可信区间,91.3% -97.9%),和特异性为40.6%(95%可信区间,33.0% -48.7%)。
最终诊断恶性大约是10倍良性肯定在参与者最终诊断恶性评级宠物,但最终诊断恶性只有3倍当宠物的结果可能是恶性(表3)。恶性肿瘤的可能性是相似的参与者可能对宠物绝对良性和良性的结果。LRs可能或肯定良性结果与相应CT优于LRs宠物。
宠物曲线下的面积为0.93 (95% CI, 0.90 - -0.95)和CT是0.82 (95% CI, 0.77 - -0.86) (图2)。区别这两个估计是统计学意义(P< 0.0001)。
我们比较的结果面板读者与网站的读者。我们发现,无论是宠物网站读者的结果(敏感性,95.9%;特异性77.9%)和CT网站读者的结果(敏感性,96.3%;特异性36.1%)明显不同于面板读者的结果。
敏感性分析显示,诊断准确性的估计变化不大,表明我们的发现是健壮的参与者损失,由于不完整的或不确定的参考标准(补充数据)的结果。
国米intrareader协议宠物非常好,用加权κ-statistics interreader为0.826 (95% CI, 0.782 - -0.870)和0.924 (95% CI, 0.901 - -0.946) intrareader比较。协议之间的内部和CT读者很好但要低得多(interreader: 0.637;95%置信区间,0.542 - -0.731;intrareader: 0.759;95%可信区间,0.660 - -0.859)。
讨论
这是最大和最严格的评估宠物spn患者,仅有的一些研究比较精度的PET和CT显示(23)。此外,几乎所有的以前的研究,检查CT对肺结节进行描述的准确性超过15 y前(24,25)技术和方法,是完全过时了。
我们发现,宠物有类似特征的敏感性和特异性,CT优越spn。因此,LRs PET和CT结果相似,可能是或绝对良性的,这样在测试结果与最后一个良性诊断密切相关。然而,绝对的恶性结果宠物比这些更预测恶性肿瘤CT结果。ROC曲线分析证实,宠物比CT更准确。图2显示了宠物曲线之外,所有点CT的曲线,表明无论在哪里设置阈值,定义了一个积极的测试结果,宠物优越的准确性。
宠物通常是作为辅助提示结节CT评估(26)。我们的研究结果支持这种方法。我们发现宠物的正确分类58%的良性结节CT被错误地归类为恶性。此外,25%的结节被CT特征为不确定的读者,而只有1%的结节被宠物归类为不确定的读者。分为不定的结节CT特征正确在宠物在超过80%的情况下(敏感性,83%;特异性,89%)。
古尔德等。8)报道的敏感性为94.2%,特异性83.3% metaanalysis总共包括450例肺结节13个小研究。在这里,我们发现低敏感性和特异性类似,将符合这些期望研究少验证偏差(27)。这些发现也可能使用的方法组装我们的研究样本。临时协议要求登记的参与者与提示病变胸片上,而不是在其他的研究中,所使用的策略,登记参加结节最早出现在CT。我们相信录取有结节的参与者首先出现在CT会有偏见的研究越来越普遍的恶性结节。我们的入学协议导致的恶性结节(53%)远低于通常在SPN表征的研究。这个特性的研究设计也允许一个公正的比较PET和CT的准确性。
报道,CT是不准确的(敏感性,95.6%;特异性40.6%)在最近的一次多点研究报道的对比度增强CT (28)(敏感性,98%;特异性,58%)。恶性肿瘤的患病率是相似的两项研究吸附(53% vs . 48%增强CT研究),分布和平均结节大小。因此,很可能看到的差异是由于使用严格的协议与动态静脉对比度增强,而不是使用的协议,这是与通常的临床实践。然而,值得注意的是,即使有性能的对比研究中发现,CT的特异性仍低于上年的宠物。
我们发现宠物interobserver优越,intraobserver可靠性,而CT。除了性能优越的描述不确定的病变,这导致可靠性上级PET / CT的准确性。孤独的结节的特征,宠物的interobserver可靠性报告类似于以前在一个较小的系列报道(29日),而对于CT比之前报道(30.)。
这项研究的结果可能不是完全可概括的,因为人口男性吸烟者的比例很高。然而,恶性肿瘤的患病率和均值结节大小类似于另一个大型多中心研究人口员(25)。这里的研究设计中,依赖于随机选择一个读者从一对估计敏感性和特异性,有些小说。虽然这个设计经历了初步的同行评审的研究论文(设计9),它不应被视为已经充分测试严格的同行评审。我们分析没有显示任何偏见可能引入依靠这种方法,但读者考虑合并这样的设计在他们自己的调查应该提醒等待更广泛的测试这个试验设计的局限性和偏见。
估计的准确性在这项研究是基于344名参与者进行了PET和CT和他们的诊断是组织或后续的基础上获得的。有128额外的参与者(472年的样本总数的27%)对他们没有获得黄金标准。这种限制会限制我们的结果的有效性。然而,如补充表1所示,之间没有差异被排除在分析之外的特性和人的特点。我们还进行了灵敏度分析,证明了使用更少的严格参考标准没有改变敏感性和特异性的估计。
有些人可能会认为,随着集成PET / CT扫描仪,我们比较专门的PET和CT技术是过时的。有证据表明,一体化PET / CT比专门的宠物更准确的对肺癌的分期31日,32)。在这方面,在罕见的情况下,CT组件可能有助于提高PET的性能通过识别符合传染病快速增长过程中,提供替代诊断假说,证明支气管肺泡癌的典型模式,和类似的优势。
结论
344年这个肉搏战研究spn患者胸片发现,我们发现宠物比CT更准确、可靠和导致更少的不确定的测试结果。可能或肯定良性结果对PET和CT与良性诊断密切相关。宠物是绝对恶性结果与恶性诊断密切相关。
确认
这项研究由退伍军人事务部的统计,办公室的合作研究项目的研究和开发,临床科学研究和开发服务。本研究的方法和设计的细节之前发布的(9)。
脚注
版权©2008年核医学的社会,公司。
引用
- 收到出版2007年7月10日。
- 发表2007年11月6日。