抽象的
在一种潜在致命疾病的流行过程中,很好地估计病死率是很重要的。作者提出了一种基于Kaplan-Meier生存程序的新方法,联合考虑两种结果(死亡和恢复),并利用2003年中国香港严重急性呼吸综合征流行的数据评估其表现。他们将在流行病的各个点获得的估计值与最终观察到的病死率进行比较;引用了两个通常引用的naïve估计值,这两个估计值来自单个时间点的累计发病率和死亡率统计数据;以及使用参数混合模型的估计。他们通过分析在入院时由年龄定义的亚组,证明了患者特征对结果的重要性。
严重急性呼吸综合征(SARS)的2003年的疫情表明新发传染病是如何迅速蔓延。在一个月之内,它承认,SARS已经蔓延全球,在中国,香港,台湾,越南,新加坡和加拿大发生的流行病(1).尽管全球病例发生率仍然相对较低(8,098例),但相对较高的死亡率(774例死亡)导致受影响人群普遍担忧和恐慌,有时甚至到了恐慌的地步(2那3.).再加上受影响国家的运动的限制导致的经济成本(4.),这一流行病突出表明,需要国际社会对疾病控制作出迅速反应。最近,东南亚禽鸟中H5N1流感的爆发再次加强了新出现或演变中的传染性病原体大流行的可能性。
在新颖的或新出现的传染病的爆发期间,待确定的最重要的流行病学量之一是病例比例 - 最终死于疾病的病例的比例。该比率通常通过在单一时间点使用案件和死亡的总数,例如世界卫生组织在SAR流行过程中(5.).然而,从这些报告中获得的病死率比简单的估计可能会产生误导,如果在分析的时候,结果是患者不可忽视的比例未知。由报告病例总数除以死亡人数非典期间获得的估计是(在全球爆发的最初几周3-5%)比得到的要低得多,当使用适当的统计方法和显著变化国家之间(6.-8.).此外,随着疫情的发展,naïve的这些统计估计错误地显示了病死率的上升(9.),加剧了受灾人群本已高度的公众恐慌。
在这篇文章中,我们展示了如何通过采用Kaplan-Meier方法来估计流行病过程中的病死率,该方法有两种结果:死亡和恢复。我们用来自香港的完整SARS数据(所有1,755例病例)来说明这一程序,并将结果与根据不同流行阶段的总或累积病例数和死亡人数计算的估计数进行比较,并使用参数混合模型(10那11).
估计病死率的统计方法
简单的估计
第一个估计值忽略了当病人在医院里生病时产生的审查。第二种方法含蓄地假设,留在医院的患者的病死率将与结果已知的患者的病死率相似。此外,为了使第二种估计方法能够合理地发挥作用,随时都有死亡和恢复的危险T.从入院开始测量,以当时发生的事件为条件T.,应成比例。潜在死亡概率的二项置信区间可以通过使用精确方法或正态近似的估计计算出来。
参数混合模型
将Kaplan-Meier方法推广到两种结果
在任何时间点S.在疫情中,可以通过将时间分散到几天并使用简单的估计器来估算危险功能
资料:香港SARS病例
我们的分析是基于2003年香港1755例SARS病例的完整记录,该病例是根据世界卫生组织临床病例定义定义的。有关这些病例的详细流行病学描述载于其他地方(14那15).
患者自入院之日起即被视为有风险,因为这一日期在分析时就已知晓。另一种选择是确定感染开始的时间。然而,使用这个定义可能会导致结果偏差;尚未入院的患者不能纳入分析。因此我们排除在我们的分析124例住院感染发病前(也就是说,院内感染后获得承认其他条件),三种情况下的放电日期不清楚,和22例,其最终结果是未知的,病例数减少到1606。在早先的分析中,我们使用最后一次从医疗机构出院的日期作为个人被认为已经康复的日期(14那15).然而,一些病人,尤其是老年人,出院早于这个日期从急症护理医院康复保健设施(主要是作为预防措施,因为非典当时未知的自然历史2003年的爆发,特别是那些恢复的传染性)。在这里提出的分析中,我们认为这些人已经康复(在他们从急症护理医院出院时),因为没有其他的人后来死于与sars相关的原因。
为了比较不同的估计量,我们分析了疫情七个不同时间点的数据(表格1).在2003年4月2日之前,没有足够的结果数据(关于死亡和康复)来估计病死率。
。 |
日期 。 |
。 | 。 | 。 | 。 | 。 | 。 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
。 |
四月二日 。 |
四月九日 。 |
4月16日 。 |
4月23日 。 |
4月30日 。 |
5月7日 。 |
5月14日 。 |
||||||
不。的情况下 | 925. | 1,201 | 1,367 | 1,489 | 1547年 | 1,582 | 1607年 | ||||||
观察的%被审查 |
85.9 |
81.2 |
71.5 |
51.6 |
35.1 |
25.2 |
17.3 |
。 |
日期 。 |
。 | 。 | 。 | 。 | 。 | 。 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
。 |
四月二日 。 |
四月九日 。 |
4月16日 。 |
4月23日 。 |
4月30日 。 |
5月7日 。 |
5月14日 。 |
||||||
不。的情况下 | 925. | 1,201 | 1,367 | 1,489 | 1547年 | 1,582 | 1607年 | ||||||
观察的%被审查 |
85.9 |
81.2 |
71.5 |
51.6 |
35.1 |
25.2 |
17.3 |
。 |
日期 。 |
。 | 。 | 。 | 。 | 。 | 。 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
。 |
四月二日 。 |
四月九日 。 |
4月16日 。 |
4月23日 。 |
4月30日 。 |
5月7日 。 |
5月14日 。 |
||||||
不。的情况下 | 925. | 1,201 | 1,367 | 1,489 | 1547年 | 1,582 | 1607年 | ||||||
观察的%被审查 |
85.9 |
81.2 |
71.5 |
51.6 |
35.1 |
25.2 |
17.3 |
。 |
日期 。 |
。 | 。 | 。 | 。 | 。 | 。 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
。 |
四月二日 。 |
四月九日 。 |
4月16日 。 |
4月23日 。 |
4月30日 。 |
5月7日 。 |
5月14日 。 |
||||||
不。的情况下 | 925. | 1,201 | 1,367 | 1,489 | 1547年 | 1,582 | 1607年 | ||||||
观察的%被审查 |
85.9 |
81.2 |
71.5 |
51.6 |
35.1 |
25.2 |
17.3 |
结果
图2一个显示了香港流行的时间进程。第一例病例于2003年2月15日报告,疫情在6周后的2003年3月27日达到高峰。在疫情期间,死亡者的平均住院时间为23天,从急症医院出院者的平均住院时间为23天(在大多数情况下是到康复护理机构)。后一种持续时间部分由临床指南决定,该指南确定了出院前在医院的住院时间,可能无法反映感染的自然病程。因此,患者的最终结果落后于他们的鉴定大约3周(图2b).因此,估计病死率比时,截尾的程度重,即使在流行的高峰。表1这说明了这一点,即使在4月的第一周,当疫情开始下降时,86%的病例结果仍然未知。我们的分析重点是估计从这一点开始的病死率;在较早的时间点,死亡或恢复的人数太少,无法获得可靠的估计。
基于该样本的最终病死率为14.2%,低于官方报告的完整数据集的17.2%(302/ 1755)。这种差异主要是由于排除的124名患者感染后住院了其他条件(即院内感染),其中许多人有多种并发症和一个年长的年龄分布,从而导致更高的比例比一般样本情况下死亡。
图3一节目通过四种方法和病死率比得到的估计数字(最终)观察谁已经被这些时间点住进了医院的个人。所观察到的病例死亡率比在该时间期间稍微增加,这反映了的情况下的年龄分布的变化。早在疫情的基础上,死亡的案件比第一个简单的估计,E.1,低估病例比例,因为许多病例留在医院;因此,分子低估了与样本最终发生的SARS相关死亡总数。
第二个简单的估计是根据已知结果者的死亡比率,E.2在流行病的大多数情况下是合理的。然而,在疫情的某一时间点(4月16日),估计值低于最终观测值,置信区间不包含观测到的病死率。
参数混合物模型提供了疫情早期的情况估算(截止至4月30日)。然而,在疫情晚期,估计变得更高,最终观察到。这种转变为更高的估计是由于参数的变化并且反映了参数分布的差(在该示例中,用Weibull和Lognormal分布获得伽马分布,但类似地差的配合)。
基于kaplan - meier的非参数方法在审查程度适度时(从4月30日开始,审查的观察比例小于40%)提供了合理的病例死亡率估计。然而,在疫情早期,估计值较低,而且在分析的一个时间点(4月9日),置信区间不包含(最终)观察到的病例病死率。通过检查从4月9日至4月23日的数据集中获得的非参数生存和出院概率的Kaplan-Meier曲线(图3b),看来估计的幸存者函数在这两个日期之间发生了变化。数据中的这种不寻常模式降低了4月23日之前获得的病死率估计值。
在疫情早期,当审查程度高而精度低时,一种保守的替代方法是给出估价值和相关的置信区间
在许多情况下,需要对病例病死率进行亚组特异性估计。就SARS而言,决定病死率的最重要因素之一是年龄(14那15).表2显示了不同年龄组的病死率估计值。本文给出了根据4月23日和5月7日两个时间点观察到的数据得出的估计值,以及最终观察到的所有患者的病死率。在流行病期间的两个时间点获得的估计数显示出与最终病死率相同的年龄趋势。
年龄(年) 。 |
最终病死率 。 |
4月23日 。 |
。 |
5月7日 。 |
。 | ||
---|---|---|---|---|---|---|---|
。 | 。 | 估计 。 |
95%置信区间 。 |
估计 。 |
95%置信区间 。 |
||
≤30. | 0.4 | 0. | 0.5 | 0.0, 1.3 | |||
31-44 | 8.2 | 8.7 | 4.3, 13.1 | 8.2 | 5.4, 11.0 | ||
45-59 | 14.7 | 13.7 | 6.1, 21.2 | 15.1 | 9.7, 20.4 | ||
60 - 74 | 40.4 | 37.8 | 23.5, 52.1 | 43.1 | 33.3, 52.9 | ||
≥75 |
66.3 |
66.1 |
51.9, 80.3 |
74.9 |
64.3, 85.5 |
年龄(年) 。 |
最终病死率 。 |
4月23日 。 |
。 |
5月7日 。 |
。 | ||
---|---|---|---|---|---|---|---|
。 | 。 | 估计 。 |
95%置信区间 。 |
估计 。 |
95%置信区间 。 |
||
≤30. | 0.4 | 0. | 0.5 | 0.0, 1.3 | |||
31-44 | 8.2 | 8.7 | 4.3, 13.1 | 8.2 | 5.4, 11.0 | ||
45-59 | 14.7 | 13.7 | 6.1, 21.2 | 15.1 | 9.7, 20.4 | ||
60 - 74 | 40.4 | 37.8 | 23.5, 52.1 | 43.1 | 33.3, 52.9 | ||
≥75 |
66.3 |
66.1 |
51.9, 80.3 |
74.9 |
64.3, 85.5 |
年龄(年) 。 |
最终病死率 。 |
4月23日 。 |
。 |
5月7日 。 |
。 | ||
---|---|---|---|---|---|---|---|
。 | 。 | 估计 。 |
95%置信区间 。 |
估计 。 |
95%置信区间 。 |
||
≤30. | 0.4 | 0. | 0.5 | 0.0, 1.3 | |||
31-44 | 8.2 | 8.7 | 4.3, 13.1 | 8.2 | 5.4, 11.0 | ||
45-59 | 14.7 | 13.7 | 6.1, 21.2 | 15.1 | 9.7, 20.4 | ||
60 - 74 | 40.4 | 37.8 | 23.5, 52.1 | 43.1 | 33.3, 52.9 | ||
≥75 |
66.3 |
66.1 |
51.9, 80.3 |
74.9 |
64.3, 85.5 |
年龄(年) 。 |
最终病死率 。 |
4月23日 。 |
。 |
5月7日 。 |
。 | ||
---|---|---|---|---|---|---|---|
。 | 。 | 估计 。 |
95%置信区间 。 |
估计 。 |
95%置信区间 。 |
||
≤30. | 0.4 | 0. | 0.5 | 0.0, 1.3 | |||
31-44 | 8.2 | 8.7 | 4.3, 13.1 | 8.2 | 5.4, 11.0 | ||
45-59 | 14.7 | 13.7 | 6.1, 21.2 | 15.1 | 9.7, 20.4 | ||
60 - 74 | 40.4 | 37.8 | 23.5, 52.1 | 43.1 | 33.3, 52.9 | ||
≥75 |
66.3 |
66.1 |
51.9, 80.3 |
74.9 |
64.3, 85.5 |
讨论
我们的分析表明,两种方法——对结果已知的病例死亡率的简单估计和改进的Kaplan-Meier方法——充分估计了SARS流行期间的病例死亡率。第一种方法很吸引人,因为它简单且易于计算。随着病例数据的积累,特别是在疫情即将结束时,估计数字将接近疫情结束后最终观察到的数字。然而,在流行病的早期和中期,这一估计值忽略了许多现有数据。相比之下,改进的Kaplan-Meier估计器使用这些经过审查的数据,因此将更迅速地发现病例死亡率的变化(例如,由于治疗的变化)。然而,当审查程度很高(超过60%)时,就像在流行病早期确实存在的那样,给出一个范围而不是一个单点估计值更合适。参数混合模型在流行病早期表现良好。然而,在流行病即将结束时,由于参数模型与数据的拟合不佳,得到的估计过于悲观。
我们的发现证明了在所有确诊患者计算的病死率的天真估计相当大的偏差。虽然这种方法显然更容易地描述为政策制定者和公众,重要的偏见意味着缺点总是会得不偿失,不应该被使用。幼稚的做法的危险在非典疫情,其中随时间变化的天真估计导致一些人认为SARS的传染性病原体是不断发展的更致命的是明显的(8.那9.)时实际上在估计的变化是简单的伪影是由于估计方法。估计不准确的公共健康的影响,导致误传,矛盾的信息,或情报不一致的,可以和它加剧公众报警,甚至引发恐慌,这几乎总是伴随着传染病的大规模爆发,例如SARS(2那3.).
在SARS流行期间遇到的主要挑战之一是了解不同国家报告的病例比例的变异潜在的原因。该变化的很大一部分可于回想起来归因于标准化SARS案例的定义和分配死因的困难。特别是,很明显,糖尿病,冠状动脉疾病,高血压和慢性阻塞性肺病如糖尿病,患者致命比,特别是在老年人(16-21).此外,随着时间的推移,病例组合的变化(例如,患者的年龄分布)可能被误解为病原体毒性的变化。此外,如本文所述,使用住院病例的数据可能会高估感染的潜在病死率,如果不严重或没有疾病症状的个人没有出现在医院。对SARS个案接触者进行敏感及特异性血清学测试(22),以及更广泛的社区(23),发现很少有以前未确认的SARS感染,这表明每入院的病死率,如这里估计的,基本上等于每感染的病死率。然而,对于其他流行病来说,这可能不是真的,事实上通常不是。
这里提出的方法适用于任何疾病的最终结果不知道的比例的病人。不同方法的基本假设可能决定在不同的情况下哪种方法是合适的。对于SARS流行,改进的非参数Kaplan-Meier方法提供了最合理的流行过程估计。用这种方法,一个重要的假设是,在分析时间之后的死亡和出院的相对概率与分析时间之前的相似。如果从住院到死亡的平均时间大大短于从住院到出院的平均时间,并导致对病死率的偏倚估计,则可能违反这一假设。在这种情况下,参数或半参数治愈模型可能更合适。
其他一些因素可能会使估计病死率变得复杂,即使是对一种众所周知的疾病。这些因素包括病例定义、病例确定的不确定性(特别是在一些病例无症状或难以到达的人群中),以及治疗对病例确定的影响。因此,除了使用适当的统计方法外,还应进行分析,以确定估计数对这些因素的敏感性。
最后,在疫情评估的最重要因素之一,是治疗的有效性。与以前未知的病原体或疾病的出现,特别是如果病死率高,它是不是经常可能进行的新的治疗方法的随机试验。如果没有这样的试验中,治疗的评估必须依赖于病死率比为治疗演变的任何下降的评价(16那19那20.那24-27).因此,对病死率的不准确估计将对临床实践和治疗决策产生不利影响。例如,当临床医生面对一种新的、不熟悉的疾病时,可能会根据不断变化的病死率估计作为感兴趣的确定临床结果,试验不同的管理干预措施。
在未来的流行病中,可以仔细估计和分析病死率的任何趋势,以评估新治疗方法的有效性。在这种情况下,我们建议首先用改进的Kaplan-Meier方法定义病死率,如下图所示。随着数据的积累,通过使用点估计和相关的95%置信区间,可以更精确地获得病例死亡率,并与从参数治愈模型(14).在整个疫情期间,应进行分析,以检验估计对病例定义和确定的差异的敏感性,并检验病例组合的重要性(例如按年龄分列)。为了帮助读者和公共卫生从业人员应用这种方法附录提供有关使用Stata统计软件(Stata Corporation,College Station,Texas)计算给定数据集所有四个估计值的宏文件的信息。
附录
可以从统计软件组件存档(由波士顿学院经济学部门主办的统计软件组件(http://econpapers.repec.org/software/bocbocode/)通过输入命令ssc安装casefat从Stata内部连接到互联网。宏需要死亡和恢复的指示器变量以及事件时间。它还包括设置个人处于风险的时间,设置进行分析的时间,使用格林伍德公式计算方差-协方差矩阵(11),并在logit量表上构建置信区间。与宏关联的帮助文件中提供了更多详细信息。
利益冲突:无申报。
参考文献
世界卫生组织。迄今为止的SARS流行病学。(http://www.who.int/csr/sars/epi2003_04_11/en/).4月11日,
SARS:经济影响和影响。(劳资关系署政策概要编号。15)。(http://www.adb.org/Documents/EDRC/Policy_Briefs/PB015.pdf).可能
世界卫生组织。严重急性呼吸综合征(SARS)。(http://www.who.int/csr/sars/en/).十月
美国有线新闻网(CNN)。官员们说,SARS变得更加致命(www.cnn.com/2003/HEALTH/04/24/sars.death/ http: /).4月25日,