文摘
2005年美国胸科学会(ATS) /欧洲呼吸学会(ERS)肺量测定法准则定义有效的188bet官网地址测试是有三个可接受的打击,一个可重复的用力肺活量(FVC)并在1 s用力呼气量(FEV1)。本研究的目的是确定评论家和电脑确定ATS /人质量如何影响人口资料FVC、FEV1值。
肺量测定法的结果从7777年正常8 - 80岁的受试者(NHANES III(全国健康和营养调查))被分配质量等级F FVC、FEV1通过一台电脑和一个评论家(审稿人1)。结果从子群的1466名白人成年人(19 - 80岁)是由两个额外的评论家。意味着偏离NHANES III预测FVC、FEV1检查质量等级(F)。
审稿人1拒绝(D和F级)5.2%的7777个测试会话和电脑拒绝∼16%,主要是由于end-of-test(测试结束)失败。在小组内,计算机拒绝了11.5%的结果和三个评论家拒绝了3.7 - -5.9%。平均FEV1和FVC的最低限度影响成绩A到C分配审稿人1。
质量评估个人的打击包括传输结束评估主要应作为援助,随后在测试过程中质量好而不是无视数据。复议传输结束标准及其应用和改进的分级标准和培训需要过分解读。目前测试结束标准排斥的结果太多的科目,对预测值的影响最小。
文摘
ATS /人的肺量测定法排除太多科目测试标准,对预测值的影响最小http://ow.ly/DQRCD
介绍
的第一步决定如果一个主题的肺量测定法的结果应该被包括在研究是通过评估的质量和有效性测试会话。2005年美国胸科学会(ATS) /欧洲呼吸学会(人)声明188bet官网地址1)定义了一个有效的测试期间测试性能,有三个可接受的打击和可重复的用力肺活量(FVC)、用力呼气量1(FEV1)。ATS /人状态,“应该使用一个基于计算机的系统,提供反馈给技术人员。[…]重复性标准用来确定当需要超过三个可接受的FVC演习;这些标准并不排除使用结果报告或排除受试者的研究”(1]。然而,目前尚不清楚当质量验收结果为研究不足。没有具体建议如何严格这些标准应该被应用在测试包含决策,或评论者的程度应该搁置严格或计算机化的决策有关测试的有效性。哪些测试(对象)都包含在一个研究可能影响研究结果,特别是在广泛应用参考价值的研究。因此,修改质量标准在过去的二十年里可能会影响肺量测定法的参考标准。的NHANES III(全国健康和营养调查)肺量测定法数据收集与每个主题的目的试图呼气至少6年代,用最少的五个吹和可重复的FVC、FEV1 5%或100毫升。相比之下,1987年的美国胸科协会标准定义了一个end-of-test(测试结束)高原“< 40毫升增量除以2 s”(2]。这是手动确定使用一个扩展测试结束显示使用没有体积变化1 - 2 s和/或一个好的呼气。ATS测试结束标准随后修改,“没有体积变化超过年代”,根据肺活量计的检测极限的≤0.030升(3),然后“没有体积变化(< 0.025L)≥1年代,已尽力呼气> 6在主题> 10岁年”(1]。肺量测定法可用软件实现了测试结束的程度和其他质量评估算法多种多样,不清楚。
因此,本研究的目的如下。1)评估什么比例的健康不吸烟者的肺量测定法测试结果NHANES III研究[4将被包括在研究如果质量控制决策是基于计算机的应用1994 at [3和2005 at /人1测试结束定义。2)评估的程度不同的分级系统可能会影响发表参考数据。3)比较残计算机生成的质量等级和FVC与评论家,以及比较质量等级之间三个审稿人。
由于测试质量是临床试验的一个组成部分的解释,因此大大不同于使用时应用的研究背景下,我们健康我们的调查范围有限的研究主题。
研究设计
肺量测定法从NHANES III曲线和结果的参考价值研究[2)是重新分析来确定观测值在多大程度上影响FVC、FEV1质量控制使用发表评分系统(5- - - - - -7];修改来适应ATS和ATS /人建议(表1当应用由计算机和评论者。
自“正常”受试者获得参考方程用于NHANES III和为每个主题,有一个测试的影响改变质量控制标准和相对成绩可以测量任何偏离原来的预测值。因此,预测值(2)对整个数据集比较跨电脑确定质量等级,使用≤25毫升传输结束标准,与一位评论家(审稿人1)。
在一个单独的分析,综述了白人的一个子集由两个额外的经验评论者评估评论者之间的协议。除了被告知“D”和“F”成绩会导致测试(主题)被排除在研究中,没有提供详细的指导或培训之前,这些评论。
方法
测试结果从7777年健康,不吸烟(58%为男性,41%是白人,31%年龄< 18岁)NHANES III研究[4)被分配质量等级为FVC、FEV1 (A到F),分别如前所述[5- - - - - -7),同时使用计算机算法(表1由评论家)和分数分配1。数据从348年以前的正常受试者排除在NHANES参考数据集(4由于不可靠的结果,根据两个原始的评论家,包括有关。数据从7777年所有科目(表E1)综述了由计算机和分级和审稿人1根据不同的质量标准。测试结果子集的所有健康白种人的成年人(n = 1466)综述了两个额外的评论家。预测或正常的下限的值没有提供给审稿人。
当分配测试会话质量等级,计算机视觉显示可用的主题的打击都是独立的评论者(即。所有肺量图和煤层瓦斯曲线,包括任何不符合质量标准),连同:1)的相应值FVC、FEV1、FEV1 / FVC和最大呼气流量;2)他们的变化(即。多少个人价值观不同于最大的(最好的)值);和3)一系列绿色或红色的酒吧为每个这些结果表明是否可接受性标准已经见过电脑,和是否最大FVC和/或残是可重复的。可接受性标准包括:没有工件,没有突然终止,没有声门关闭或咳嗽的第一秒内测试,没有提前终止,没有泄漏和外推体积大,以及最大连续工作。计算机算法将确定测试结束标准是否满足,即。< 25的体积变化≥1毫升年代,用力呼气时间(场效应晶体管)是否≥6 s。计算机成绩和可接受性标准,如图所示表1提供指导,但可以修改每个审查员认为适当的检查每个打击后,如。检查曲线的尾部出现令人满意的,即使它没有达到< 25的计算机化的标准在1毫升年代或场效应晶体管≥6年代。与电脑相比,评论者使用目视检查来判断一个满意的测试结束而不是基于场效应晶体管这个决定在一个特定的值。使用上面的所有信息,FVC、FEV1分别得分;FVC、FEV1值可以从打击测试结束标准没有被满足。
分析
FVC,残被表示为不同(mL)这一研究观察到的结果与NHANES预测值(ΔFVC和ΔFEV1) (4]。平均(95%置信区间)ΔFVC和ΔFEV1然后由质量等级计算。意味着差异应该等于零,或高或低的值表明根据质量等级偏见。当我们评估质量控制的影响与整个数据集获得的参考价值(4),一个主题的测试会话是包含在分析即使不是所有测试结束标准得到满足。因此,任何预测的差异不是由于排斥打击,FVC不满足测试结束标准这样吹时仍然可以使用派生的主题最好的FVC,残。
而ATS /人标准化文档指出,演习不满足测试结束标准不应该用来满足三个接受打击的要求(1),这个需求被忽视的目的本研究以便其潜在影响的结果。
统计分析使用SigmaPlot(版本12.5;Systat软件,Inc .)、美国加州圣何塞)。方差分析和线性回归是用来测试within-reviewer趋势ΔFVC和ΔFEV1和质量控制之间的成绩。一个假定值< 0.05被认为是显著的。
结果
回顾整个数据集
FVC
正如所料,废品率基于FVC质量单独增加而提高质量及测试结束需求(表2)。再度重新分析整个数据集实验时,评论家1拒绝(D或F级)5.2%的FVC结果(男性4.5%,女性6.5%),16%为计算机在使用< 25毫升传输结束准则(图1)。需要一个质量等级的“a”将排除> 25%的测试,基于审稿人或计算机结果(图1)。而计算机拒绝了更高比例的测试(16%是分级F主要是由于未能达到一个适当的测试结束,根据25毫升高原标准比评论家1吹),使用的评论家从形状和曲线的一致性检查的额外信息,分配更少的成绩但是比计算机成绩B和C。图中所示的测试2,计算机分配一个FVC等级的“F”主要是由于不到两个可接受的打击由于技术缺乏高原volume-time曲线,而审稿人1分配“B”级自FVC只会增加了∼70毫升呼气持续了15年代(4]。
没有评论家拒绝利率差异民族(5.5%、5.6%和5.9%被审稿人1为白种人,墨西哥裔和非裔美国人的主题,分别)。
FVC显著预测的成绩不同,C、D和F审稿人1 (图3)。结果是最低限度,但统计方差分析(p = 0.03),不同的成绩得了意味着(95%置信区间)ΔFVC在这些成绩为13.5 (3.1 - -23.9)毫升。只有轻微的趋势FVC减少成绩两者之间等级C提供的结果,本质上相当于成绩a和bΔFVC从预测reviewer-allocated成绩D和F (309−−518分别为毫升)是更大的比与计算机等级(78−−158毫升,分别;方差分析(p < 0.001)图3)。同样,尽管FVC减少电脑确定成绩较差,ΔFVC显著不同从零只有成绩和F。
所有7777例(总场效应晶体管图4> 6)年代几乎所有的科目,因为这已经测试结束在测试性能测试的目标。然而,在54%的受试者≥19岁年,74%的受试者< 19岁年,呼气时间实际上需要达到一个高原定义为< 25的体积变化毫升/ (1年代< 6年代。表2)。< 25毫升传输结束高原需求导致FVC区别预测,随着年龄的增长而∼85在老年受试者毫升(图4b),因为标准终止策略。
子集的分析
1466年白人成年人组成的子集,电脑拒绝了两到三倍的主题所有评论者(表3)。图6一个显示之间的差异观察和预测FVC结果由质量等级。只有ΔFVC结果从审稿人1 D和F等级和从审稿人2 F分数统计不同于零。然而,积极的趋势差异与年级更加消极差异与年级F在图中找到3重复所有的评论家和电脑。
评论家发现1和2的显著降低残等级F(平均(95% CI)−243.6 (428.0 - 59.2−−)毫升和−263.1毫升(416.3 - 109.9−−),分别)。ΔFVC和ΔFEV1减少质量等级之间的关联被评论家发现1(所有科目:方差分析p < 0.001, p = 0.04;白种人的成年人:方差分析p = 0.04, p = 0.03,分别为ΔFVC和ΔFEV1)。这一趋势也观察ΔFVC当使用25毫升传输结束准则(p = 0.03),但不是审稿人3。
评论者之间的差异
拒绝利率差异FVC的评论家都大于残等级(分别为3.7 -5.9%和1.9 -2.1%)(表3);因此,反映出更复杂的FVC所需测试结束的判断。平均值为拒绝FVC测试结果明显低于预测所有评论者和电脑。所有评论家和FEV1拒绝测试率相似的电脑(图E1)。只有审稿人1和电脑拒绝测试值明显低于预测。
讨论
本研究的主要发现是比例的测试被认为是被严格的质量不满意时评估的应用at /人指南使用计算机算法,验证发现儿童(13]。包括数据被计算机对总体业绩没有显著影响,而评论家更有区别的。大量的测试,将被拒绝,尤其是年轻的科目,由于未能完成6 s呼气,但可能包括如果测试尽快终止一个呼气高原获得(表2,图4),强烈表明,2005 at /人测试结束的建议(1需要重新考虑。我们的结果也强调,质量评估对个人打击包括测试结束的可接受性评估应该在测试过程中主要用作援助质量好而不是借口,随后不顾数据。特别要注意的是使用> 25毫升传输结束标准导致了FVC错误(图4b),随着年龄的增加到100年的最大误差毫升。虽然这些可能不是临床重要差异,这种差异显示测试结束质量可能会影响FVC结果及年龄相关,即使使用当前ATS / 25人推荐毫升传输结束标准。
有几个从这项研究中吸取教训。NHANES III研究生产高质量的数据,因为它坚持严格的协议(14),其中包括严格的培训技术人员进修课程,定义良好的试验条件,及保养的设备,以及在线反馈每个策略和测试的质量。最大呼气时间限制是20年代和至少5吹了。然而,计算机算法,应用2005 at /人建议(表2)确定测量的18.2%作为质量不足。一个特别重要的发现的大部分是本研究的主题,特别是年轻的学科,不需要6年代到2005 at /人定义高原卷25毫升(表2)。事实上,53.8%的健康受试者≥19岁年,74.3%的受试者< 19岁年将他们的FVC结果拒绝为6缺乏呼气年代强烈表明,2005 at /人传输结束标准应当重新考虑,电脑质量控制不应孤立地依赖。显然,2005 at /人质量目标,同时提供一个适当的激励测试性能时,不应该被用来确定一个主题都包含在一项研究的结果。几位其他的研究支持这个建议15- - - - - -17),米ul- b兰德等。(13)认为应该抛弃固定截止场效应晶体管。
Enright等。(15)发现∼80%的受试者会见了2005 at /人肺量测定法的目标三个可接受的打击和一个可重复的测试,在150毫升(a或B)级(1]。作者用一个传输结束40毫升要求在最后一秒而不是ATS /人推荐25毫升,接近评论家所使用的传输结束1谁拒绝了∼5.2%由于FVC NHANES III测试失败。自从50和75百分位数的传输结束卷研究Enright等。(15)23毫升和38 mL,分别在25%和50%之间的话题就不会遇到了ATS /人要求一个测试结束25毫升的体积;类似于我们的结果使用电脑测试结束。在另一项研究的患者年龄在20 - 89年,33%的测试结果需要被排除在外,这主要是因为6 s标准无法满足(16),而在8 - 11岁儿童只有13.3%可以呼出6 s [17]。
而瞄准一个3岁的孩童年代呼气< 10年,6 s超出年龄作为良好的动力性能测试期间,许多人无法驱逐任何气体从肺里,长时间和场效应晶体管不应该用作标准使得操纵。信号漂移和肺量测定法软件中的错误也可能导致记录不准确的呼气时间和测试结束18]。如果没有达到体积高原在呼气延长至15年代,尽管良好的努力(图2),它似乎不合理限定的结果不令人满意。这种情况最可能出现在主题与气道阻塞,在15秒的最大FVC策略具有良好的努力仍将提供临床上有用的信息。测量肺功能可用于各种目的,包括临床诊断或管理措施的研究结果或派生预测值,这些不一定需要相同的准确度和精密度。FVC、FEV1质量等级应该允许使用不同的分级限制根据潜在的目的,或允许调查的影响消除科目成绩与低质量的控制研究。我们发现成绩D和F是降低测试结果是否分配由评论家或电脑,这些差异是非常重要的一些评论家。
Inter-reviewer差异
评分差异评论家通常是小(图6b),所有评论者显示测试结果与逐渐递减到贫穷的质量控制的成绩。审稿人1定期评审或成绩测试研究关心的是防止劣质测试的影响结果,并提供质量反馈给技术人员。因此,审稿人1可能偏向获取最准确的预期值,而不是决定是否“临床”有用的测试结果。审稿人2运行肺量测定法训练课程,为职业客户进行评论并提供反馈给技术人员。因此,审稿人2与高水平的准确性还关注就业和昂贵的错误可能产生不必要的推荐值低。相比之下,审稿人3临床解释进行评论的目的是检测或分类的疾病和假阴性结果是更多的关注。因此,审稿人3,倾向于更关心测试重复性和特别测试结束问题,这会显著地影响FEV1 / FVC的由于提前终止导致假阴性患者分类阻塞性肺疾病模式。
本研究的一个潜在的限制是,结果是基于NHANES III数据收集使用卷类型肺活量计,而如今循环式肺活量计更常用。然而,由于零流的错误与不正确的登记,可能发生在循环式肺活量计不发生在使用卷类型肺活量计,使用卷类型肺活量计可能实际上是一个优势当测试结束调查质量问题。
由于时间限制,子集用于对比评论者仅限于高加索的成年人。然而,正如审稿人1没有发现质量民族之间的差异,这是不太可能影响结果。
评论者之间的差异可能是稍微降低最初的正式训练阶段一直进行,以确保内部一致性。我们没有研究的程度within-reviewer变异性导致整体可变性。无论如何,评论者之间的差异很小,可能反映了上面讨论我们的评论者的经验。评论家和计算机之间的最大差异,与计算机拒绝至少两次测试的数量。
结论
本研究的结果强调质量评估对个人打击包括测试结束的可接受性评估应该在测试过程中主要用作援助质量好而不是一个理由随后无视数据。当用作测试的目标虽然重要,应用2005 at /人传输结束标准将拒绝许多测试判断接受的由经验丰富(1];具体来说,需要一个固定的最低场效应晶体管需要重新考虑。在成人中,提供至少两个可接受的吹了,FVC、FEV1值在200毫升,轻微的偏差在质量评分不太可能显著影响研究结果或临床解释。虽然质量评分差异有经验的评论者是最小的,评论家或上下文的背景审查可能影响检测质量差的评分系统测试。电脑质量评估出现拒绝测试远远超过人类的评论者,主要是由于测试结束的应用需求。根据我们的结果,严格的电脑质量评分可能会对预测值影响很小,但会导致更少的对象被包括在研究中。同样地,应用程序的质量标准并不总是提高临床解释,目视检查(13)总是被要求等级略低质量测试,需要尽可能标准化。
确认
我们感谢核磁共振米勒和欧洲呼吸学会匿名评论者的批判性和建设188bet官网地址性的评论,这是有助于提高我们的研究结果的表示和澄清我们的研究范围。
脚注
可以从本文的补充材料www.qdcxjkg.com
利益冲突:披露可以找到与本文的在线版本www.qdcxjkg.com
- 收到了2014年6月26日。
- 接受2014年10月23日。
- 版权©2015人队
收获打开文章都是开放和分布式根据创作共用署名188滚球软件非商业性4.0许可证。