摘要
从针灸治疗哮喘的随机对照试验中得出的相互矛盾的结果表明,针灸既有有利的影响,也有有害的影响。作者对已发表文献中的所有随机临床试验进行了正式的系统回顾和荟萃分析,这些文献比较了针刺在哮喘患者真实穴位和安慰剂穴位的效果。
作者搜索了1970-2000年间发表的试验。试验必须至少测量以下一项客观结果:呼气峰流速、1秒用力呼气量(FEV)1)和强迫肺活量。对针灸和安慰剂之间的标准化平均差异进行了计算,并将其结合起来评估总体效果。异质性是根据个体研究的特点进行调查的。
12项试验符合纳入标准,但其中一项试验的数据无法获得。只有3个国家的个人患者资料可用。均数之间的标准化差异在0.071到0.133之间,偏向于针灸。总体效果不是传统意义上的显著性,它对应于FEV的近似差异11.7的手段。在探索heterogenenity之后,发现在实验期间诱导支气管混合物的研究表明了常规显着的影响。
这项荟萃分析并没有发现针刺减轻哮喘的证据。然而,由于个别试验的不足,meta分析受到了限制,包括样本量、信息缺失、基线特征的调整,以及使用安慰剂点可能导致的对针灸的偏见(可能不是完全不活跃的)。有人建议优先发表有利于针灸的试验。显然,有必要进行全面的随机临床试验,以解决这些局限性和疾病病因的预后价值。
一些随机临床试验报告了针灸治疗哮喘的益处1那2,但通常结果似乎是矛盾的,既有有利的影响,也有不利的影响3.那4.那5.那6.. 针灸治疗哮喘的疗效尚未被证明是无可置疑的7.. 这可能是由于试验设计和治疗方式的差异或试验规模小。就设计而言,插入针头可以防止使用失明来消除安慰剂效应,因此针头有时会插入“安慰剂点”8.。使用客观测试(峰值流速)对感知的呼吸困难或焦虑进行测量的结果范围广泛,这引入了另一个变化来源。治疗方式的差异包括不同的穴位、刺激周期和针刺方法9..所有个体研究的规模只是传统权力要求给出的样本量的一小部分:需要550名患者在5%显著性水平下检测平均值为0.25、权力为80%的标准化差异。为了避免样本量小的问题,目前的作者旨在系统地回顾和综合所有相关的随机临床试验的结果,这些试验比较了针刺在哮喘患者真实穴位和安慰剂穴位的效果10.这种方法可以检测到适度的治疗效果,这在小型研究中不太可能可靠地检测到11那12,以及更客观地评估在不同试验中取得的相互冲突结果的来源。
Cochrane系统评价数据库中先前对涉及174名患者的7项试验的系统评价13利用平均数差异,仅对三项试验进行综合定量总结。使用标准化的平均差,这里的概述允许对所包括的11个临床试验中的9个进行定量荟萃分析。此外,本研究试图确定和量化荟萃分析的不同偏差来源。最后,尽管Cochrane数据库概述的研究合格标准与本研究中使用的标准相似,但所包含的研究并不相同。作者充分说明了所使用的方法,并比较了非标准化和标准化平均值差异对总体效果的影响。
方法
审判资格
作者制定了两个合格标准。首先,这项研究必须是一项随机临床试验,对哮喘患者进行真实针灸和安慰剂针灸的比较。其次,研究必须测量至少一个目标终点:峰值呼气流量率(PEFR),一秒用力呼气量(FEV)1)和强迫肺活量(FVC)。
检索文献
最初,参考文献来自已发表的论文1那6.以及关于该主题的叙述性评论3.那8.被搜查。计算机辅助检索检查了以下文献数据库:Medline,生物学摘要和论文摘要。使用的关键词是:“针灸”、“哮喘”、“肺病”、“临床试验”、“替代医学”、“随机对照试验”和“补充医学”。在学习期间进行连续的搜索,修改最初的关键字以包含任何新的信息。搜索范围从1970年到2000年。最后,我们联系了所有合格报告的作者,并询问他们是否知道任何进一步出版或未出版的作品。检索期间为1994年12月至2000年12月。
研究表征
从每一份合格的报告中注意到以下几点:发表年份和来源、患者数量、随机分组类型、盲目性、针灸穴位数量、被排除的患者数量、药物、结果以及性别、年龄、疾病和治疗持续时间的统计摘要。设计了一份调查表,以评估与报告质量有关的其他主观特征14.问卷分为研究设计(10个项目)、统计分析(3个项目)和结果陈述(2个项目)三个部分进行评估。每个项目都有一个分数,以给予最高可达到的39分(研究设计27分,统计分析部分10分,结果展示2分)。四位经验丰富的生物统计学家独立评估了这些论文。作者和出版来源是未知的不同评估。用有效信度来评价该评价的信度15.
统计分析
每个试验至少报告了PEFR(6个试验)和FEV两种结果指标中的一种1(7个试验),所有试验均未报道单一结果。因此,进行了两项荟萃分析;一个基于PEFR(使用FEV1当PEFR不可用时),另一个基于FEV1(FEV时使用PEFR)1不可用)。由于不同的结果必须合并,因此使用了平均数之间的标准化差异,而不是平均数之间的差异,尽管该摘要限制了分析的可比性和解释16. 在交叉研究中,相关系数用于计算平均差的方差。在那些没有提供足够信息恢复相关系数的研究中,使用了相关系数的加权组合17.
如果有的话,作者计划使用各个患者数据。否则,只使用摘要。在图形显示结果时,使用扫描仪和技术绘图程序来估计手段和标准错误。对于具有一系列重复测量的试验,选择最大平均变化作为每个试验获得单一效果大小的标准。
为了结合试验结果并估计总体效应,作者使用了固定效应模型18,用效应量方差的倒数来加权每个试验。为了评估各试验结果是否存在统计学差异的证据,进行了异质性检验19.鉴于此测试的低功耗20.此外,还调查了异质性的可能来源。为了探索每项研究的贡献,作者将异质性(QH)测试中的平方和(个体效应和总体效应之间的偏差)分为两部分,一部分与亚组间(QB)差异有关,另一部分与亚组内差异(QW)有关。当任何异质性不能由任何可识别的原因解释时,使用随机效应模型评估整体治疗效果的稳健性21.
结果
临床试验的描述
超过200个可能的试验被确定,但只有12个满足纳入标准1那2那6.那22-30..一项在中国期刊上发表的试验22无法恢复,因为作者只能检索总结结果的摘要的糟糕翻译,没有提供提取任何有用的摘要数据所需的信息。我们通过邮件联系了主要作者,但所有的尝试都没有成功。因此,仅纳入11项研究进行进一步分析。11项试验的描述信息如表1所示⇓. 一些试验缺少信息。没有试验说明所使用的随机形式以及如何进行。
在表2中⇓,这些试验按设计类型、交叉组或平行组进行分类,并根据分析是否经过:未经基线测量调整、经基线测量调整或经基线测量调整,并以与基线值的百分比变化报告,分为三个子类。只有两个交叉试验考虑了周期效应的可能性23那24没有考虑到过度效应的可能性。因此,在本分析中,作者在任何试验中,作者都不认为任一期间或过度效应都很重要。跨试验的另一个特征是哮喘是否已经诱导;通过运动或某种支气管痉挛在十一试验中的五种试验中诱导哮喘。报告呈现不佳。在许多情况下,不准确地说明p值,而是给出与传统意义水平的关系。另外,通常在没有变异性的指示(例如平均值的标准误差或曲线图)的情况下说明意味着。
估计治疗效果
图形 1.⇓和表3⇓显示9项研究平均值之间的标准化差异,从每个报告中选择一个结果。总体处理效果由无偏标准化均数差(使用合并相关系数估计其方差)估计为d=0.12,其95%置信区间(CI)为(−0.07-0.31)。这相当于FEV的近似差异11.7的手段(95%CI -1.3-4.7)。图形 1.⇓显示这些结果与相应的图表进行个体研究和整体组合结果。
异质性检验在传统水平上没有统计学意义(8个自由度的QH=12.54 (df);p = 0.13)。然而,当对这些贡献进行检查时,迪亚斯的研究等等。6.为Hetereoceneity统计数据提出了最大的贡献。从分析中除去研究后,异质性的试验显示出相当较低的值(QH = 5.41,具有七个DF; P = 0.61)。没有该试验的总体效应大小估算器为0.167,(95%CI -0.02-0.359)。在随机效应模型下,该估算器为0.12(95%CI-0.14-0.38)。该结果类似于固定效果模型中获得的结果,尽管CI略宽。
分别分析诱发(诱发)和非诱发支气管收缩的研究。在引发支气管收缩的研究中,估计效果为0.3 (95% CI 0.04-0.56)。此外,几乎没有证据表明这些试验的结果具有异质性。相比之下,未引起支气管收缩的研究的估计效果为- 0.08 (95% CI - 0.28-0.20)。这些试验的异质性检验接近常规显著性(QH=7.49,四个df, p=0.11)。这种异质性主要是由于Dias的研究等等。6..对于该子集,随机效应模型下的效果大小估计器为-0.08(95%CI -0.45-0.29)。
测试估计的可靠性
为了评估标准化均值差异结果的稳健性,对每个结果测量分别计算均值之间的差异。由于不同的研究报告了不同的结果衡量标准,因此存在一些局限性。在某些情况下,这使得作者无法合并所有呈现相同结果指标的研究,因此,试验数量减少。例如,在三个试验中报告了FVC的结果测量结果,其中只有两个试验显示出相似的实验条件。因此,未对该结果指标进行检查。出于同样的原因,评估FEV的六项研究之一1从综合了五项研究的分析中删除。图2⇓和表4⇓显示此结果测量的平均差异和标准化平均差异的组合。FEV的总体平均差异1是3.53(95%CI 0.44-6.62)。FEV的总体标准化平均差异1为0.17 (95% CI−0.05-0.39)。整体均数差的异质性检验为QH=4.05 (4 df, p-value=0.40)。标准化均数差异显示异质性统计量略有增加(QH=4.93, 4 df;p = 0.29)。
讨论
补充疗法在医疗保健领域越来越受到关注。针灸是最受欢迎的替代疗法之一。其中一些吸引人之处在于它在中医药中的长期应用,以及避免了皮质类固醇和β-干扰素等更为传统的哮喘治疗方法的副作用2-拟交感神经激动剂8..总体效应大小(均数间的标准化差异)在0.07和0.13 (95% CI−0.07 - 0.31)之间。这与FEV的最大似是而非的增长相对应1这可能表明针灸治疗哮喘对所考虑的客观结果影响很小。然而,有趣的是,在实验诱导的支气管收缩中可能观察到一个小的影响。不同的病因可能导致了这种效果。主观结果(一般生活质量或感知呼吸困难或焦虑)是否受到影响不能可靠地评估,可能需要在未来进行检测。
在设计类型、选择的终点和数据分析方面,针灸治疗哮喘对照试验的最佳方法似乎没有明确的一致性。在探索不同研究间效应的异质性时,评估了不同实验设计(交叉、非配对比较、配对比较)和报告呈现质量不同的研究之间的差异。然而,这些异质性来源似乎并未影响最终结论。首先,异源性测试通常给出较低的值,尽管结果可能表明,在哮喘被激发的情况下,针灸的作用不大,在未来的研究中了解这一假设是明智的。其次,固定效应和随机效应模型的结果相似。作者认为,固定效应模型在这一元分析中是适当的,因为异质性的程度不是太大,并且如先前所见,它可以被解释。此外,使用标准化和非标准化平均差的对比研究表明,除了终点FEV外,没有矛盾的结论1.这五项研究测量了FEV1标准化平均差为0.17(95%可信区间)−0.05–0.39),而平均FEV1差异是3.5(95%CI 0.3-9.5)。这一终点的差异可能是塔什金的研究引起的等等。23:在均值间标准化差值的估计中,它以较大的权重负贡献,而它对均值间差值的合并估计量的贡献很小。原因是塔什金的研究等等。23显示方差最大的最大样本量。这显然是一种特殊情况,表明本文在估算方面可能存在错误。
考虑到评估大多数偏差对整体结果的影响的难度,应该考虑可能影响该荟萃分析可靠性的局限性。有一些因素可能导致了人们对针灸的偏见。首先,没有证据表明任何试验估计了样本量先天的而且它们都太小,无法察觉到针灸的适度效果。meta分析的目的之一是增加患者数量,以检测这种具有临床意义的中度效应11但是,在目前的荟萃分析中,综合的患者数量仍然低于传统的权力需求所给出的规模。其次,哮喘试验中使用的安慰剂点似乎对肺部疾病有效8..第三,缺少信息是一个相当大的限制。没有一篇论文呈现了估计可能使结果更保守的效果规模和间接方法所需的足够信息。使用福勒的方法等等。17收益率保守的结果。此外,扫描仪从图形中获得了一些基本的统计信息,这就增加了测量误差。然而,作者认为这在一个方向上不太可能是系统性的。其他因素的影响,如信息缺失和报告写得不好,可能是重要的,但它们的影响很难估计。关于报告的提交,罗森伯格31提出了一系列建议,这些建议将是未来对针灸进行更新和更有力的荟萃分析的重要信息。
本研究中独立评估员对研究质量的评估与其他研究基本一致3..这表明在针灸治疗哮喘的研究中有几个不足之处,首先,在样本量、预后变量的影响、信息缺失和使用安慰剂点引入的对针灸的偏倚方面,可能不是完全不活动的。仍然有可能获得患者数据以避免信息缺失的问题,并可以选择使用更复杂的分析32.找到中文报告的位置很重要22通过联系不同的图书馆和互联网。目前的荟萃分析没有发现针灸治疗哮喘患者疗效的证据,这与Cochrane系统评价数据库中的结果一致13. 然而,值得一提的是,两项研究中的综合样本量仍然低于传统功率要求给出的样本量。因此,显然有必要设计一个大型随机临床试验,以解决上述局限性。
- 收到了2000年9月8日。
- 公认二○○二年五月二十八日。
- ©ERS期刊有限公司