摘要
支气管内超声引导下经支气管针吸术(EBUS-TBNA)非常依赖于操作员,并且具有较长的学习曲线。基于模拟的培训可能缩短学习曲线,并且具有可靠有效性证据的评估工具可以确保在无监督的表现之前具备基本能力。
总共16名没有EBUS经验的呼吸内科医生被随机分配到对患者进行虚拟现实模拟器培训或传统学徒培训,然后每位医生对3名患者进行EBUS- tbna操作。三位盲的、独立的评估人员使用新开发的EBUS评估工具(EBUSAT)对手术过程的视频记录进行了评估。
内部一致性高(Cronbach’s α=0.95);推广系数良好(0.86),工具具有鉴别能力(p<0.001)。由模拟器训练的新手执行的程序评分高于由学徒训练的新手执行的程序:平均值±sd是24.2±7.9 分和20.2±9.4分 分别得分;p=0.006。使用对比组方法建立了28.9分的合格/不合格标准,导致16(67%)和20(83%)个程序分别由模拟培训新手和学徒培训新手执行,未通过测试;p<0.001。
支气管超声评估工具可提供可靠有效的EBUS-TBNA能力评估,并可作为认证的辅助工具。虚拟现实模拟器训练被证明比传统的学徒训练更有效。
摘要
基于虚拟现实仿真的训练缩短了支气管超声(EBUS)的学习曲线http://ow.ly/OazC9
介绍
纵隔淋巴结的准确分期是确保可切除非小细胞肺癌(NSCLC)患者得到正确治疗的关键。支气管内超声(EBUS)和经食管超声(EUS)已经取代外科纵隔镜成为获得组织确认的首选[1.,2.]因此,EBUS设备的可用性呈指数级增长[3.].然而,这种迅速传播并未就如何培训操作人员和如何评估程序能力达成一致意见。诊断产量高度依赖于操作员,而学习曲线显示,各个操作员之间存在很大差异[4.,5.].传统的学徒制EBUS培训模式并不理想,因为学员的参与增加了操作时间、镇静用量,并有增加并发症发生率的趋势[6.].
在卫生专业的教育环境中,虚拟现实模拟器在培训中的使用正在逐渐普及。与没有干预相比,模拟始终与知识、技能和行为结果的巨大影响相关[7.].两项关于虚拟现实EBUS模拟器的研究也显示了有希望的结果,但还没有进行将学徒训练与虚拟现实模拟器训练进行比较的随机对照试验[8.,9].在医学教育中进行实验研究具有挑战性[10].为了获得足够的样本量,多中心研究通常是必要的,结果测量的有效性需要高度关注;什么定义了EBUS程序的合格性能?一种一分为二的结果测量方法,例如诊断产量,不足以评估个别程序的绩效,在有监督的培训环境中也不是一个可行的选择,因为产量受到监督人员协助的影响。英国胸科学会的指导方针建议关注个人的表现,并指出应该确定能力评估的标准[11].理想情况下,这些评估有效性的证据应该从Messick的单一效度框架中的所有五个来源收集,即内容、反应过程、内部结构、与其他变量的关系和结果[12].
本研究的目的是开发一种评估工具,用于测量富电子跨界针头抽吸(TBNA)的能力,并建立工具有效性的证据,以及比较患者传统学徒培训后学员的能力和虚拟 -现实模拟器培训。
材料和方法
评估工具的开发
该评估工具是由一个由两名呼吸内科医生、一名胸外科医生和一名医学教育教授组成的小组开发的,他们都在内镜超声和其他程序的表现、教学和验证方面具有相当丰富的经验[13–15].该工具是按照“客观结构化技术技能评估”的原始格式设计的,其中每个项目按照1到5的等级进行打分,中间和结尾都有描述性锚点,并重新编码成0到4分的分数[16].设计了6个项目来评估患者对纵隔解剖的认识,要求操作人员识别6个解剖标志:4L、7、10L或11L、10R或11R淋巴结站;奇静脉;淋巴结站4R。定义了四个与操作内镜和执行TBNA所需的技术技能相关的项目:内窥镜的插入、传感器的定位、鞘的使用和针头的使用。最后,增加了两个项目,让评估者分别给出他们对解剖方向和活检取样的总体意见。在丹麦和荷兰采用直接观察和基于视频的评估进行试点测试后,12项支气管内超声评估工具(EBUSAT)最终确定,副本可在在线补充材料中找到。
参与者
2名专家和16名超声检查受训者被纳入研究。图1显示研究的流程图。学员分别为丹麦(n=8)和荷兰(n=8)呼吸内科医生。入选标准为对纵隔分期的了解和灵活支气管镜检查的经验;排除标准为前EBUS培训。两位专家积极从事EBUS-TBNA工作10年,符合国际专家标准[17].所有参与者均为志愿者,并在纳入时签署知情同意书。所有程序都在监督下进行,类似于日常实践。所有的数据都是保密的,根据两国的国家立法,该研究免于获得完全的伦理许可。
![图1](http://www.qdcxjkg.com/content/erj/46/4/1140/F1.medium.gif)
展示研究设计的流程图,显示了随机对照试验和内超声专家的程序,以及与验证研究相关的额外数据收集。EBUS-TBNA:支气管内超声引导经支气管针吸。
培训计划
所有学员都在丹麦或荷兰参加了全天的EBUS理论课程,由同一教员讲授相同的课程和设备演示,但没有实际操作培训。特别注意使所有参与者熟悉前面所述的EBUS的标准化方法,以及将用于评估其能力的评估工具。之后,参与者被随机分成八组,每组接受半天的临床实践训练,由两名专家中的一名指导。通过一名独立护士绘制的密封信封,参与者随后被随机分配到病人(学徒训练)或虚拟现实模拟器上进行个人训练。
学徒培训包括半天的EBUS-TBNA程序的集中监督表现。每个受训者执行两到四个程序。而虚拟现实模拟器培训包括半天的GI Bronch Mentor EBUS模拟器的实践培训(Simbionix, Cleveland, OH, USA) (图2).该模拟器包括一个代理EBUS示波器和TBNA针,一个跟踪设备运动的接口,以及一台生成内窥镜和超声图像的计算机。每个参与者至少完成六个不同的培训案例中的每个案例一次。同一个胸外科医生监督所有的训练过程,以使模拟训练标准化(即干预)。总培训时间与对照组临床培训时间相等。
![图2](http://www.qdcxjkg.com/content/erj/46/4/1140/F2.medium.gif)
用于培训模拟器组的虚拟现实模拟器的屏幕截图。
测试的能力
试验在1到8之间作为保留试验进行 训练结束后数周。所有测试课程在参与者被随机分组之前安排。参与者不允许在训练和记忆测试之间的间隔时间练习或执行EBUS程序。测试包括在三名连续患者中执行三个EBUS-TBNA程序。在引入在检查范围时,受训者必须确定六个解剖标志(如前所述)按照预先确定的顺序,然后对一个淋巴结站进行两次经支气管细针穿刺。所有操作均由两位EBUS专家中的一位进行监督。主管告诉受训者要穿刺哪个淋巴结站,但在操作过程中不进行干扰,除非干扰对患者或患者至关重要检查设备。记录任何口头或手动干预。在对所有16名学员进行测试后,两名专家以与上述完全相同的方式分别执行了五个连续程序。所有程序的超声图像和内窥镜图像均使用画中画功能进行视频记录。
得分
评估过程在上次测试完成3个月后开始。我们使用了三名评估人员:一名参与EBUSAT开发的EBUS专家,两名独立的外部EBUS专家,他们只收到关于使用评估工具的书面说明。每位评估人员都收到一个带有匿名程序视频记录的便携式硬盘,并使用相应的EBUSAT表格独立评估程序。如果受训者需要口头帮助,相应的项目会得到1分。如果是主管手动协助学员,该项目的得分会降至0分。
统计分析
使用Cronbach’s α研究EBUSAT形式的内部一致性。可概化理论被用来对评估工具的可靠性进行联合估计,并探索方差的不同来源[18].进行了一项“决策研究”,以探讨改变评估人员数量和评估程序的影响。我们遵循了D拥有[19对于所有的信度指标,系数>0.7被认为足以进行形成性评价,系数>0.8被认为良好(适合于总结性评价),系数>0.9被认为优秀。采用Mann-Whitney检验比较不同组手术的EBUSAT评分。采用独立样本t检验比较项目得分。所有p值<0.05认为有统计学意义。通过/不通过的分数是使用对比组方法建立的[20.].关于三组内通过/不通过标准的结果使用频率进行报告,并使用Fisher精确测试进行探索。
通用性分析使用G-string IV统计软件包(Papaworx,Hamilton,ON,Canada);所有其他分析均使用PASW版本20.0(美国伊利诺伊州芝加哥SPSS Inc.)进行。
结果
有效性的证据
所有收集到的EBUSAT表格有效性证据的摘要显示在表1.EBUSAT内部一致性高,Cronbach’s α=0.95。两个总体项目(“定位总体”和“活检样本总体”)与潜在的具体项目之间的相关性很高:皮尔逊的r分别为0.88和0.86 (p<0.001的两种相关性)。可推广系数对我们的设置很好,为0.86。表2显示了不同的方差来源。超过一半的方差源于参与者之间的差异(兴趣方面),方差的第二大来源是患者病例的困难程度的差异,评估者之间的分歧只占方差的一小部分。图3显示了D研究的结果,证明了当一名、两名或三名评估员评估一到八个程序时,EBUSAT的可靠性。
![图3](http://www.qdcxjkg.com/content/erj/46/4/1140/F3.medium.gif)
当一名、两名或三名评估人员使用EBUS评估工具评估1至8例支气管超声(EBUS)引导下经支气管针吸程序时,得出的泛化系数。虚线表示总结性评估所需的可靠性(0.8)。
EBUS专家执行的程序得分明显高于新手执行的程序,平均值为±sd得分为35.2±9.4分与分别为22.3±9.0分,p<0.001。TBNA的表现比解剖标志的识别更难;“定位总体”和“活检抽样总体”的平均得分分别为2.0分和1.6分,p<0.001。4R、10R和10L站点相对较难识别,平均项目得分分别为1.9、1.7和1.9分。4L站、7站和奇静脉站更容易获得2.5分、2.3分和2.3分的项目得分。活检取样项目得分差异较大:“使用针头”得分最低,为1.4分;“传感器定位”得分1.7分;“使用护套”得分2.6分。
合格/不合格标准为28.9 使用对照组方法确定积分(图4).只有一个由专家执行的程序(10%)得分低于这一标准,而由学徒训练的新手和模拟器训练的新手执行的程序分别有20个(83%)和16个(67%)没有通过测试,p<0.001。
![图4](http://www.qdcxjkg.com/content/erj/46/4/1140/F4.medium.gif)
采用对比组法建立合格/不合格标准。虚线代表通过/不通过标准28.9点。
虚拟现实模拟器训练与传统的学徒训练
由模拟器训练的新手执行的程序评分高于由学徒训练的新手执行的程序:平均值±sd24.2±7.9 分和20.2±9.4分 各点,p=0.006(图5).模拟训练结果解剖定向得分较高(14.8±6.0分)与12.0±6.5分,p=0.007),技能9.6±3.8分与8.2±4.1,p = 0.023。
![图5](http://www.qdcxjkg.com/content/erj/46/4/1140/F5.medium.gif)
支气管超声(EBUS)评估工具分别对由学徒训练的新手、模拟器训练的新手和EBUS专家执行的程序进行评分。显示异常值、最小值、第一四分位数、中位数、第三四分位数和最大值的箱线图。虚线代表通过/不通过标准28.9点。
讨论
我们开发了一种评估EBUS-TBNA能力的工具(EBUSAT),并从单一框架中的五个来源收集有效性证据(表1以及在线补充材料)。随机接受虚拟现实模拟器培训的医生在EBUS-TBNA盲法评估中的EBUSAT评分高于接受传统学徒培训的医生(图5).
评估工具的有效性证据
在超声内镜和评估工具方面具有专业知识的教师的开发为EBUSAT的内容提供了可信性;这些项目代表了定义EBUS过程的重要问题。总体项目(“定位总体”和“活检抽样总体”)与相关具体项目之间的良好相关性进一步支持了内容效度。
我们非常小心地消除“响应过程”中的错误源。经过全面测试的客观结构化技术技能评估格式允许对能力进行分级判断,以及记录由一个或多个错误导致的总体不称职印象,这些错误只会导致检查表分数的最小降低。此外,检查表的二分法性质引入了一个显著的上限效应,不适合测量熟练程度的细微差别[21,22].Wahidiet al。[23]使用清单来评估13名学员什么时候能够独立完成EBUS-TBNA程序,发现平均完成5次、9次和13次程序后,分别有25%、50%和75%的学员完成了。一项关于中心静脉置管技能的研究发现,一些不称职的学员犯了严重的程序错误,但仍设法获得较高的检查表得分(≥80%)[24].开发EBUSAT是为了允许基于EBUS-TBNA程序匿名记录和通用性分析的盲法评估(表2)表明这种盲法是成功的;评估者和医生之间的交互作用占方差的<2%。盲法消除了对有效性的一个主要威胁,即直接观察过程中评估者与学员关系中的偏见。一项关于EUS绩效评估的研究表明,当评估者知道顾问的身份时,他们获得了明显更高的分数,而实习生则相反。15].
EBUSAT工具的心理测量特征(“内部结构”)证明是令人满意的。Cronbach’s α表现出良好的内部一致性,而可泛化性分析显示,评估者之间的分歧仅占方差的4.3%(显示出良好的评估者间的信度)。不同案例的表现差异(重测信度)相当大;这是意料之中的,因为我们使用了不同困难的连续患者。这一发现强调了评估多个程序以得出关于学员能力的可靠判断的重要性[13].决策研究显示,评估人员数目和程序数目的几种可行组合可产生可接受的泛化系数(图3).由一个评审员对三个程序进行评估,如。主管,结果系数>0.7,足以进行形成性评估(反馈)。两个评估人员评估三个过程(或三个评估人员评估两个过程)对于高风险总结性评估(认证)来说,需要达到>0.8的系数。这与类似的食管和腹部超声技能性能评估的研究相符,支持我们的结果的通用性[15,25].
由经验丰富的操作者操作的程序得分明显高于由新手操作的程序(p<0.001),这为区分能力提供了重要的有效性证据。我们的发现是基于来自两个国家和三个不同的评估人员的数据,他们只收到书面指示。因此,EBUSAT仪器在其他机构的使用可能是可行的。
随着评估工具的引入,向以能力为基础的医学教育的转变,使探讨通过/失败的“测试的后果”变得很重要[26].我们使用可信的标准设定方法来确定通过/不通过分数;只有一个由专家执行的程序得分较低,而大多数由受训人员执行的程序不符合标准。
虚拟现实模拟器训练与传统的学徒训练
本研究的一个重要部分是探讨虚拟现实模拟器训练能否在学习曲线的初始部分取代学徒训练。我们发现,模拟器训练的新手得分明显高于那些训练过真实病人并由EBUS专家指导的新手(p=0.006)。目前的研究是最大的ebus训练研究,也是第一个将真实患者的表现作为结果参数的随机研究。虽然我们没有调查为什么基于模拟的培训比学徒培训更有效,但我们怀疑这是由于两种培训模式的不同性质:虚拟现实模拟器允许学员在标准化和相对无压力的环境中最大限度地进行实践,而临床培训自然地依赖于可用的患者。此外,有些情况对新手来说太有挑战性,在程序之间通常会有一些等待时间。此外,特别是在学习曲线的早期部分,由于对病人、设备或时间的限制,监督人员通常会控制整个过程。
一个系统的EBUS-TBNA训练方案不应该仅仅基于虚拟现实模拟器训练;模拟器训练只能替代学习曲线的初始部分(图6).我们的研究结果证实,在虚拟现实模拟器(图5)我们提出了一个三步方法,包括学习必要的解剖学和理论(第一步)、基于模拟的训练(第二步)和指导患者实践(第三步),然后再进行独立的手术。测试可以确保基本能力,并已被证明可以加速学习和提高记忆力[27].因此,我们建议,在进行下一个步骤之前,所有三个步骤都应以能力测试结束。关于理论知识的有效性证据测试已经发表[28,在EBUS-TBNA模拟器上的性能[29,30.和患者EBUS-STAT的表现[21]和EBUSAT(当前研究)。
![图6](http://www.qdcxjkg.com/content/erj/46/4/1140/F6.medium.gif)
图示程序训练的两种方法:在对病人进行手术前在模拟器上练习(虚线)和对病人进行初始训练(实线)。曲线之间的面积代表了基于仿真的训练的潜在好处。
我们的研究有几个局限性。尽管这是迄今为止规模最大的EBUS培训研究,但我们承认,16名呼吸内科医生仍然是一个相对较小的数字。不幸的是,由于可行性问题和适合纳入的参与者稀缺,这在医学教育研究中往往是这样的情况,如。在虚拟现实支气管镜模拟器上进行的两项随机研究分别包括6名和10名参与者[31,32].我们的研究有足够的力量来检测两组之间性能的差异(其为20%)。另一个限制涉及结果措施(EBUSAT得分)。理想情况下,培训研究应在发病率和死亡率方面表现出更好的患者结果,或使用诊断产量等临床结果措施。但是,这需要大量执行无监督程序的学员,这似乎不可行或道德上可接受。对于这种限制,我们认为,最佳的解决方案是使用多个盲化评估员评估多程序,使用评估工具具有来自多种来源的有效性的固体证据。评估工具的有效性取决于所使用的上下文,并且应始终考虑可延不可的问题。最近对评估工具的审查发现,绝大多数研究使用“基于有效性类型的过时的框架”;使用已接受的框架的EBUSAT对EBUSAT的系统探索是我们研究的重大实力[33].然而,重要的是要承认,EBUSAT的开发只是为了测试解剖方向和技术技能,其他重要的能力,如理论知识、与患者的沟通和团队工作能力,也应该被评估。
结论
EBUSAT是首个对临床EBUS-TBNA性能进行盲法评估的评估工具。这项研究在两个不同的国家收集了所有五个有效性证据来源的证据,并使用了三个独立的评估人员,这使得我们的发现很有可能可以推广到其他情况。建立了一个可靠的通过/不通过标准,使EBUSAT作为认证辅助成为可能。在学习曲线的初始阶段,虚拟现实模拟器训练比传统的学徒训练更有效。
确认
作者要感谢所有参与这项研究的呼吸内科医生
脚注
这篇文章有补充资料可从www.qdcxjkg.com
利益冲突:未声明任何利益冲突。
支持声明:Simbionix (3D Systems, Cleveland, OH, USA)捐赠了8000欧元用于数据收集相关费用(丹麦和荷兰之间的运输)。该公司对研究设计或数据展示没有影响。
- 收到了2014年12月23日。
- 认可的2015年5月14日。
- 版权©2015人队