抽象的
预测模型很难遵循标准化的方法,而研究人员应该根据研究需要和期刊提交要求遵循普遍接受的报告标准https://bit.ly/30zfMIw
来自作者:
我们要感谢G.S. Collins, M. van Smeden和R.D. Riley对我们文章的设计、分析和报道的评论[1]。然而,他们的评论似乎源于传统的生物统计角度,而不是来自翻译研究机器学习方法,并且从任何一个误解或误读都会产生绝大多数批评。
作者不准确地说明我们随机拆分数据集。如我们手稿中所述,我们无安地定通过时间和地点拆分数据,使其更强大于三脚架语句。使用独立的群组来测试模型的可连续性使其成为三脚架类型3研究[2]。我们同意拆分减少了训练数据集的大小,增加了过拟合的可能性。但是,作为一种RNA病毒,SARS-CoV-2可能会迅速变异,形成多样化的特征。因此,我们按时间和地点划分数据集,而不是使用交叉验证或自举。
作者使用了75个候选预测器而不是7个选定的预测器来对我们的训练数据集进行样本量计算[3.]。虽然我们同意使用候选人预测因子是一种更严格的方法,但与使用所选的候选人相比,在现代机器 - 学习和 - 学习领域中太严格,忽略了我们所采用的特征维度减少和选择方法的力量。虽然我们了解过度舒适仍然可能,但从无关机构的五个数据集中的模型验证增强了所呈现的模型是强大的可能性。测试集结果是单独呈现的,以提高对稳健性的理解,因为通过将其与性能良好的大型测试集合,可以轻松地隐藏可能的小型测试中的可能性差。更重要的是,所选变量从临床角度来看4,5,使我们的模型可解释、透明,从而为最终用户所接受。
我们同意排除丢失的数据可能会导致偏差,并在讨论中将此列为我们的第一个限制。鉴于这种快速发展的大流行的时间关键性质,我们决定排除38名患者比归罪于推断更可取,这种选择引入的偏差将在5个外部验证和发表后的进一步验证中揭示。作者不准确地说,我们假设连续预测器与结果是线性相关的。我们强调,特征选择和建模都没有假设预测因素和结果之间存在线性关联。随机化结果和重新运行分析的过程是一种针对过拟合的强有力的健全检查[6]。
我们必须指出,自适应合成(ADASYN)算法是一种已发布并经过验证的处理数据集不平衡的方法。虽然我们同意这种方法可能会在模型拦截中引入一个错误,但我们相信这个错误可以在计算模型在五个外部验证数据集中的性能时估计出来。每个人都有自己喜欢的参数,而且通常可以找到比那些通常报告的更好的参数。在机器学习和临床应用之间的融合领域尤其如此,报告可能是次优的、更容易理解的指标可能比数据科学家使用的更多技术指标更有好处。报告混淆矩阵是一种广泛使用且易于理解的评估分类性能的方法,它很容易得到辩护。同样,报告普遍采用的灵敏度和特异性指标以及来自校准图的结果与这本受人尊敬的出版物的读者保持良好的一致性。
作者称我们的风险分组是随意的。临床医生要求使用三种危险人群,这在临床上很常见,包括COVID-19:低风险(家庭护理)、中风险(医院监测)和高危(ICU入院)。风险概率阈值基于均衡训练集的第25和75个概率百分位数。在这些阈值下,在每一组试验中,低危组有<20%的严重结局发生率,高危组有>75%的严重结局发生率,临床医生认为这是有用的。作者谴责我们没有明确地报告模型参数。对我们来说,任何临床分诊模型的主要目的都是在临床环境中对个体患者的应用。我们相信nomogram和web calculator都能满足这一要求。此外,在模型评价方面,可以从列奥图完全重建模型参数。
诊断和预测模型有许多清单或指南[7- - - - - -10]。回顾过去,我们同意TRIPOD是一个比标准更适合建模研究的清单,因为它包含了报告方法和结果的细节。我们从本杂志的提交指南中选择了一个更熟悉的清单(指南中没有列出TRIPOD),并将确保在未来也包括TRIPOD报告。鉴于机器学习性质的快速变化和指南数量的增加,很难制定标准,而在模型研究报告中对标准的需求也在增加。
总的来说,我们相信我们的工作是有用和解释的,并获得了包括临床医生的同事的积极反馈,他理解他们的要求被考虑在内。我们目前正在潜在验证我们的模型,只有这种方法可以真正验证预定义模型。
可共享的PDF
脚注
利益冲突:吴博士没有什么可披露的。
利益冲突:Woodruff博士在Oncoradiomics(少数)股份,在提交的工作之外。
利益冲突:Chatterjee博士没有披露。
利益冲突:Lambin博士在医疗云公司拥有少数股份,并报告来自Varian Medical,Mocoradiomics,Pttheragnostic / Dnamito和Health Innovation Ventures的赠款,来自核发生物,BHV,Varian,Elekta,Pttheragnostic和Groudicals的个人费用提交的工作;并且具有PCT / NL2014 / 050248,PCT / NL2014 / 050728和PCT / EP2014 / 059089许可,PTENSED和Patents N2024482,N2024889和N2024889待定。
- 已收到2020年7月27日。
- 接受2020年7月30日。
- 版权©2020人队。
这个版本是在知识共享署名非商业许可4.0的条款下发布的。