抽象
我们评估了特发性肺纤维化(idiopathic pulmonary fibrosis, IPF)患者的表现特征,并评估了数据驱动纹理分析(DTA)的最小临床重要差异(MCID), DTA是一种高分辨率计算机断层扫描(HRCT)衍生的肺纤维化测量方法。
研究对象包括141个科目与IPF从两个介入临床试验谁了基线和标称54-或60周的随访HRCT。DTA分数计算,并与用力肺活量(FVC)相比,扩散肺一氧化碳的能力,距离的6分钟步行试验和St George呼吸问卷得分来评估方法的可靠性,有效性和响应过程中覆盖。Anchor-和配送为主的方法来估算其MCID。
DTA不得不在根据在后续锚变量出现稳定的受试者可接受的可靠性。在DTA之间的相关性得分和基线等临床测量是中度到弱,在假设的方向。上可接受的响应是由中等至弱相关证实(在方向假设的)在DTA得分和改变其它参数的变化之间。使用FVC作为锚,MCID估计为3.4%。
使用DTA上HRCT的肺纤维化程度的量化是可靠的,有效的和响应,以及~3.4%的增加代表临床上重要的变化。
抽象
在IPF患者中,使用数据驱动的纹理分析在HRCT上定量肺纤维化程度显示可接受的表现特征,并在3.4-6.4%的范围内显示最小的临床重要差异http://ow.ly/fFNc30lfAGh
介绍
特发性肺纤维化(IPF)是一种慢性纤维化的间质性肺病,其病因仍然是未知的[1]。它的特点是肺实质的逐渐瘢痕化,使患者呼吸困难增加,生活质量下降,生存时间缩短。其中位生存期估计为3-5年,尽管个体预后可能存在显著差异[2- - - - - -5]。一些患者病情发展迅速,早期死亡,而另一些与临床稳定的可变周期下降得更慢[6]。疾病的严重程度,并随着时间的推移变化的准确评价体系对临床护理和治疗试验的关键。
肺生理学,特别用力肺活量(FVC),为疾病进展的纵向监测的标准方法。然而,疾病活动性与缺点,包括在变化率上的技术和耐心的努力,变性依赖的间接测量[7],并且缺乏敏感性的疾病状态的微妙变化[8]。虽然它一直是人们争论的主题[9],在FVC下降IPF [普遍接受作为替代终点死亡10]。尽管如此,人们普遍认识到,需要采取更多有效和可靠的结果衡量标准[6,11]。
高分辨率计算机断层扫描(HRCT)扮演的IPF患者评价的重要作用。它提供了肺实质的无创可视化,可在大多数患者诊断IPF无肺活检,并已用于进入临床试验。然而,HRCT图像的视觉评估由观察者间变化有限[12]并且是用于纵向评价不够精确[13]。
对于HRCT定量评价计算方法已成为在肺纤维化有前途的疾病严重程度的客观指标[14]。在基线HRCT衍生分数纤维化程度关联在一起生理损伤的程度,并且可以在除生理度量疾病状态的微小变化更敏感[15]。在以前的工作中,我们表明,肺纤维化的程度,在HRCT上量化方法被称为数据驱动的纹理分析(DTA),提供了一个IPF严重程度指数,与专家的视觉评估和肺功能,并可以用来预测纵向疾病行为比半定量的视觉成绩或肺HRCT直方图指标(16]。
被接纳为观察指标,HRCT肺纤维化评分的性能需要进一步研究。在这项工作中,我们分析了从两个IPF治疗试验(PANTHER-IPF [汇集对象级的数据17和雷尼尔[18])评估信度、效度和反应性,并估计最小的临床重要差异(MCID)(对患者有意义的结果测量的最小差异[19DTA)。
方法
研究设计与人口
由于所有的分析进行了回顾性对以前收集的,去标识的数据,这项研究是由另外的机构审查委员会的批准豁免。对于PANTHER-IPF和RAINIER试验方法已被先前公布[17,18]。我们纳入了同时具有基线和随访(PANTHER-IPF和RAINIER分别为15和12.5个月)数据的受试者。简单地说,是为了纳入PANTHER-IPF,一个安慰剂的三组试验与ñ乙酰半胱氨酸与三药物组合(强的松,硫唑嘌呤和伍ydF4y2Ba乙酰半胱氨酸),患者需要IPF的诊断用类似于随后公布的国际共识指南[标准进行1]。一个subset of 72 subjects underwent both baseline and nominal 15-month follow-up volumetric (axial slice thickness and spacing ≤1.25 mm) HRCT. RAINIER was a placebo-controlled trial of simtuzumab, a monoclonal antibody against the lysyl-oxidase like-2 enzyme, conducted from March 2011 to January 2016 and terminated prematurely for lack of efficacy. In this trial the diagnosis of IPF was made in accordance with accepted criteria [1]。受试者来自美国网站的一个子集进行基线和标称54周的随访HRCT。In RAINIER, HRCT protocols were more varied, but only series with axial slice thickness ≤2.5 mm and limited gaps (slice spacing ≤10 mm) were included in this analysis (n=69). HRCT scans showing excessive motion artefacts, inadequate inspiration or an incomplete depiction of the lung parenchyma, identified by visual assessment, were omitted from this analysis. Baseline and follow-up HRCT with similar protocols were matched, to the extent possible. Case selection and summary characteristics of HRCT are included in补充图E1和补充表E1。在每次试验中,标准的人口统计,生理和患者报告的结果变量进行收集,包括FVC,漫射肺的容量为一氧化碳(DLCO),距离6分钟步行试验(6MWD)和响应数据从圣乔治呼吸问卷(SGRQ)期间覆盖。该SGRQ是生活调查问卷的呼吸疾病特异性健康相关的质量分为三个域(症状,活动和影响)50个项目。每个域得分和SGRQ总分具有从0到100的范围内,具有对应于更大的损伤[更高的分数21]。
统计分析
基线特征生成汇总统计。在性能分析中,我们使用了几种疾病的严重程度变量作为锚针对其DTA分数进行比较。锚包括FVC,DLCO,6MWD及SGRQ分数。
多个分析进行了支持DTA得分作为能够在IPF严重性捕获基线和变化的度量的有效性。对于同时效度分析中,我们研究了DTA分数和各锚基线值之间的关联(FVC,DLCO,6MWD和SGRQ分数)通过使用Spearman相关系数。已知的基团的有效性通过比较在由分层对FVC基线值的确定队列IPF严重性的锚定义的,离散的子组的平均DTA纤维化评分评估DLCO,6MWD及SGRQ。单向ANOVA进行统计学比较,以及使用Tukey方法p值调整成对比较。
响应用在每个锚变量在DTA评分从基线的变化和从基线的变化之间的Spearman相关系数评估。这些值也被用来衡量锚的适当性的MCID估计。继拇指科恩的规则,相关系数锚≥0.30时DTA相比变化被认为是合适的[22,23]。
DTA分数跨越分层为在IPF严重性变化的离散的,锚定义的类别的对象组进行比较。被选定为每个锚变量分层等级来表示是“差很多”的群体,“稍差”,“同”,“稍微好一点”和“更好”。根据公布的数据被选择用于每个锚截止值。例如,在IPF为FVC的MCID估计为〜5%[24],因此,“相同的”基团为这个锚被定义为受试者的变化在FVC是相对的±5%至基线之间“略差”和“差很多”设定在该值的两倍截止内。Other published MCIDs in IPF are ∼30 m for 6MWD [25]和7分SGRQ总分[26]。在慢性阻塞性肺疾病,对于MCIDDLCO估计为约10% [27]。通过计算基线和随访DTA评分的类内相关系数(ICC)来评估重测的信度,本研究以每个外部锚点的稳定值来定义“相同”组的受试者。ICC值<0.5、0.5 - 0.75、0.75-0.9、>0.90分别为信度差、中、好、优[28]。在DTA分数锚定义的组的平均变化使用ANOVA进行比较,p值调整使用t检验成对比较。
MCID定义为可以被认为是重要的衡量的结果差异最小,并且会导致临床医生考虑改变治疗[25]。虽然对确定MCID的理想方法尚未达成共识,但目前的最佳实践是使用几种方法来估计实际范围[23,26]。尝试三角测量MCID的DTA使用两种anchor-和配送为主的方法进行。MCID的基于锚的估计是反应的一种特殊情形,其中在DTA平均变化分数谁改变最小根据给定锚提供MCID估计科目。我们认为DTA变化分数的平均值在“稍差”的群体,对于前面描述的恶化,如MCID的估计。影响的大小,在基线和后续由DTA得分在基线的标准偏差划分,来估计MCID的幅度平均得分DTA的区别。的0.2,0.5和0.8作用大小值被认为是小分别,中型和大型,[24]。
基于分布的方法只使用样本数据,依靠结果得分的分布的统计特性来估计MCID [19]。我们使用基线DTA评分的标准差和这些估计的测量标准误差。结果变量中与中等效应大小相对应的变化量,即。基线标准差的一半,可作为MCID的估计值[25,29]。最后,测量的标准误差(MCID的另一估计[24])计算为扫描电镜=(SD)×sqrt(1-ICC)。
采用R版本3.4.2进行统计分析[三十]和p值<0.05被认为是统计学显著。
结果
最终队列是由141个科目谁了可用于分析基线和随访数据。人口统计学,基线值和变化在后续的介绍中表格1。均值±SD合并队列的年龄为68.0±8.2岁,其中108(76.6%)为男性。均值±SD基线FVC%预解码值是68.9±15.2%,DLCO% pred为43.6±11.9%,6MWD为393.0±93.5 m, SGRQ总分为39.4±17.2。均值±SDDTA得分基线为28.0±12.9%。平均而言,受试者显示在随访期间略有进展(平均FVC下降相对于基准6.14%)。
表2显示基线DTA得分和临床变量之间的相关性。有弱到中等强度的DTA得分和基线每个锚之间的预期方向的相关性。表3将结果呈现为已知群体的基线数据的有效性分析。对于DTA得分平均值一般都与贫穷的肺功能,6MWD和生活健康质量更高的科目。方差分析显示平均基线DTA得分跨越FVC不同,DLCO和SGRQ组按严重程度定义的,但不跨越6MWD值的光谱。的手段Tukey多重比较表明平均DTA得分为任何两个FVC三分位数和任意两个之间的显著不同DLCO三分位数(P <0.05,和Bonferroni调整)。具有最低得分SGRQ的亚组平均得分DTA从其他两个SGRQ自定义分组,其平均DTA得分彼此没有显著不同显著不同。
表4演示如何使用DTA变化得分之间的Spearman相关,为后续的得分减去基线得分来计算变化的响应,并在FVC,DLCO,6MWD及SGRQ值。相关性是弱到中等强度的和预期的方向。所有的相关系数的绝对值为≥0.30,支撑所述各锚MCID的估计的适当性。
对于MCID的基于锚的估计数据都在呈现表5。将DTA得分的平均变化按各外部锚变量的“差得多”、“略差”、“相同”、“略好”和“好得多”变化进行分组。各组稳定受试者基线DTA和随访DTA评分ICC在0.78 ~ 0.91(均值0.83)之间,表现出良好至极好的信度。方差分析显示,各组DTA变化值的平均值存在显著差异。肺功能、6分钟步行距离和健康相关生活质量下降较大的受试者,DTA值的增加始终较大。“稍差”组的平均DTA变化值是MCID的估计值。在这组效果大小是小到中等为每个锚。
表6总结使用基于锚点和分布的方法估计MCID的结果。对MCID的估计相当一致,从3.4%到6.4%。
讨论
胸部HRCT是在对病人的诊断和管理,IPF依赖。产生疾病的程度有希望成为在IPF精确和客观的观察指标定量HRCT分数,但需要进一步系统性能测试的计算方法。在这项研究中,我们使用基线和纵向数据从两个良好表征的群体评估DTA的性能特征。证实了我们以前的工作中,DTA之间的相关性得分和基线肺功能检查为中度。扩展我们以前的研究结果,更多的锚变量(6MWD及SGRQ)和已知群体有效性的测试结果表明,DTA可以区分科目与疾病严重程度的不同级别。这也表现出卓越的重测信度在科目确定为基于锚变量稳定,这是响应于测量的疾病严重程度的变化。最后,我们估计,同时使用anchor-和配送为主的方法,对于MCID将在3.4-6.4%的范围内恶化。
其他研究人员已经使用计算方法在HRCT上评估肺纤维化。与DTA一样,多种方法的得分与肺生理指标相关。例如,Jacob等。(31]表明,卡尺,基于感兴趣体积内的像素强度的柱状图局部,提供肺纤维化的图像派生度量更强烈地与FVC在基线比没有视觉评分相关联的定量方法。P方舟等。的[32基于纹理的量化系统显示纤维化评分与基线植被覆盖度相关,其网状测量可预测1年随访时植被覆盖度的下降。K即时通讯等。(33]观察到的定量肺纤维化评分,通过与图像纹理特征和专家标记的图像区域训练机器学习算法来计算,与基线值相关FVC和DLCO。在7个月的随访,在定量肺纤维化评分变化也与FVC的变化及相应DLCO。年代alisbury等。(15也分析了来自PANTHER-IPF队列的HRCT扫描。使用AMFM(自适应多特征方法)算法,他们显示了毛玻璃网状结构的基线评分与60周内死亡、住院或FVC下降10%的复合结局的风险独立相关。这个分数的变化只是微弱的相关(r= - 0.25;(p=0.01)随随访时FVC的变化。
DTA是作为一个简单的卷积神经网络。它是基于无监督功能学习;用于分类图像特征在初始集群化处理被发现,相比于由该算法设计者选择设计特征。在图像纹理分析,设计特征通常基于局部区域内一阶和二阶像素统计。特点工程的一个缺点是在设计和功能选择过程中引入的偏差。据悉功能依赖于更少的设计选择,而且往往比手动设计的功能更好地捕捉重要细节[34]。未来的工作将在评估弥漫性肺疾病的检测和定量更为复杂的卷积神经网络架构的优势。
在2014年10月,美国食品和药物管理局批准的基础上变化FVC [IPF的2种抗纤维化药物(吡非尼酮和尼达尼布)35]。In the confirmatory trials, the modelled average decline in FVC was ∼100 mL per year in subjects on either of the approved treatments [36,37]compared with ∼200 mL per year in subjects on placebo [38]。这些认证已经重塑在IPF将来的药物试验的景观,因为大多数即将到来的试验对象将是这些药物之一[8,39]。由于测定100毫升以下的植被覆盖度的差异将是困难的,因此需要对疾病活动进行额外的可靠、灵敏和有效的结果测量。
而很短的时间间隔内重复HRCT在这项研究中不可用,我们观察到谁在随访期间保持稳定,基于每个锚变量,受试者在DTA纤维化评分上可接受的可靠性(ICC = 0.78-0.91)。我们还观察到更大的DTA纤维化评分对应了更大程度的生理障碍,运动耐力减少和生活减少患者报告的质量,并在DTA纤维化评分的改变与外部锚变化中度相关。确认在一个单独的人口将是理想的;但是,适当的,有顺序扫描和生理独立的数据集是不是可在此分析的时间。作为定量成像使用机器学习不断推进,存在用于在IPF和其它纤维化肺疾病标准化成像群组,可用于开发,测试和验证的方法日益迫切需要。这可能是可用的数据集,将有助于驱动领域的创新。
MCID的估计是对结果一致的解释,并在临床试验设计样本量的计算是有用的。基于分布的方法更简单的计算,并在该结果是不太可能归因于随机测量提供变化的变化程度的估计[19]。然而,他们缺乏外部锚提供的上下文。基于锚的方法通常是优选的[23],因为它们决定MCID作为变化的在与在外部变量临床相关变化相关联的结果的程度。我们之所以选择FVC,DLCO, 6MWD和SGRQ作为外部锚点,因为它们是众所周知的IPF严重程度的指标,并在临床护理和治疗试验中常规测量。其中,只有植被覆盖度可以被认为是一个有效的结果,这可能是最好的锚。然而,我们中DLCO, 6MWD和SGRQ,因为尽管它们显示出更大的变异性,但它们满足了适当性的最低标准,并已被用作估算FVC的MCID的锚点[25]。在HRCT形态纤维化的进展可能是相对独立的生理进程,这也许可以解释为什么在我们的研究中,这些措施之间的相关性不是很强的。事实上,DTA可以起最好作为一种辅助措施,而不是用于生理评估的替代品。
本研究的优点包括使用在临床试验中前瞻性获得的合并数据,以及使用四个外部锚变量来测试DTA的性能特征和评估其MCID。还有几个限制需要注意。首先,这是一个事后analysis and data beyond 60 weeks were not available. Follow-up HRCT was available on only a small fraction of total subjects enrolled in each trial and this may represent a selection bias toward subjects with less aggressive disease progression. Second, there was variation in HRCT parameters and a slightly different follow-up interval in the trials. Differences in HRCT acquisition and reconstruction parameters, and in the level of lung inflation during a scan, are well-known sources of variation in quantitative HRCT of the lungs [40]。这些效果可以通过使用标准化的HRCT方案来缓解,该方案只需短时间屏息,并指导受试者充分激发扫描的重要性[41]。我们推测,改善HRCT特征的一致性将降低DTA或任何定量图像分析方法的可变性并提高其性能。第三,在短时间间隔内重复HRCT不能用于重测分析。第四,受试者要么保持临床稳定,要么出现下降,因此我们的MCID估计值仅用于恶化。最后,在HRCT上提出了其他纤维化量化方法,但我们没有直接比较不同的算法。
这项研究表明,HRCT上肺纤维化的定量测量是疾病严重程度的一个队列与IPF从两个临床试验人群合并对象的可靠,有效和响应措施。我们估计,DTA的MCID在IPF恶化是在3.4-6.4%的范围内。这项工作表明使用DTA,形态的基于图像的测量,可用于评估IPF结果应在前瞻性临床试验来测试一种有价值的补充工具,定量HRCT。
补充材料
脚注
这篇文章有提供补充材料www.qdcxjkg.com
作者投稿:概念与设计:S.M.汉弗莱斯,J·JSwigris,株式会社布朗和D.A.林奇。数据采集,分析和解释:S.M.汉弗莱斯,J·JSwigris,启功,J.S三德,G. Raghu,M.钢绞线,M.I.施瓦茨,株式会社 Brown, K.R. Flaherty, R. Sood, T.G. O'Riordan and D.A. Lynch. Drafted manuscript for important intellectual contribution: S.M. Humphries, J.J. Swigris, K.K. Brown and D.A. Lynch. Review and finalising of the manuscript: all authors
支持声明:PANTHER-IPF研究数据分析部分被NIH / NHLBI R01 HL091743(K.R.弗莱厄蒂)的支持。Gilead Sciences公司资助的雷尼尔研究HRCT的定量分析。本文资金的信息已交存交叉引用出资者注册。
利益冲突:S.M.亨弗里斯报告从Gilead Sciences公司RAINIER HRCT扫描,在研究进行期间的定量分析服务合同;从勃林格殷格翰的个人费用,由NHLBI资助,并从PAREXEL信息学,外提交的工作服务合同;此外,S.M.汉弗莱斯拥有的专利“的系统和方法自动检测和使用动态特征分类病理定量”挂起到国立犹太医学中心。
利益冲突:J·JSwigris有没有透露。
利益冲突:株式会社布朗报告多个肺纤维化NHLBI拨款,个人费用从阿斯利康,拜耳,生原体,Fibrogen, Galecto,落实诺埃俄罗斯,ProMetic, Patara,第三极,aTyr勃林格殷格翰的发言,谈话根据与热那亚CDAs,加拉帕戈斯群岛和全球血液疗法,赠款和基列的个人费用,并提交拨款罗氏/基因泰克,外提交的工作。
利益冲突:M.链是没有透露。
利益冲突:问:龚有没有透露。
利益冲突:J.S.三德报告是一个全职员工和股东的吉利德科学公司
利益冲突:G. Raghu一直对IPF和肺纤维化疾病的勃林格殷格翰,BMS,Bellerophan,罗氏/基因泰克和Veracyte的顾问,以及对生物遗传,纤维蛋白原,Gilead Sciences公司,日东,Promedior,帕塔拉IPF研究顾问和赛诺菲,外提交作品。
利益冲突:M.I.施瓦茨公司没有透露。
利益冲突:K.R.弗莱厄蒂报告赠款和勃林格殷格翰公司和罗氏/基因泰克,从Veracyte,风神,Pharmakea,纤维蛋白原和赛诺菲 - 健赞公司个人收费的个人费用,以及赠款传入,提交作品之外。
利益冲突:R.苏德报告说,吉利德科学的研究进行期间提供服务的成本支付运行IPF临床试验。
利益冲突:T.G.奥赖尔登是Gilead Sciences公司的全职员工和股东。
利益冲突:D.A.美林的报告,从PAREXEL和Veracyte从NHLBI补助,个人费和研究支持,由勃林格殷格翰公司,基因泰克/罗氏和Acceleron个人费用,提交作品之外;此外,D.A.林奇拥有的专利“的系统和方法自动检测和使用动态特征分类病理定量”挂起到国立犹太医学中心。
- 收到2018年7月23日。
- 接受2018年7月26日。
- 版权©2018人队