文摘
机器学习是人工智能的大脑机器。我们描述它是如何执行的,以及探索其当前在呼吸医学使用。未来潜在的应用和可能融入临床实践中的问题进行了讨论。http://bit.ly/31XVruW
机器学习是什么?
人工智能(AI)被认为是创造智能的科学项目。数据科学家试图将人类智能的一些功能合并到机器以达到特定的任务。这些强大的和受过训练的机器能够迅速解决问题,强劲和可再生的方式。AI并不是一个新概念,但其进化最近经历了一次大规模转换由于大幅改善学习方法,计算能力和对大型数据集的访问。机器学习是人工智能的大脑机器。机器学习的核心是创建算法从输入数据以自动完成目标任务,例如,做决定或预测。在机器学习中,输入数值特性(原始数据或派生功能)。例如,如果任务是检测皮肤病变,我们可能使用一个全貌,而如果任务是标签检测到的良性或恶性病变,我们可能使用宽度、颜色、和规律性的病变特征。给定一个预先选择机器学习模型的类型,类型的输入数据和目标任务,数据科学家列车群的算法示例情况下(训练数据)来执行任务尽可能“准确”。在算法,各种数据操作,比较和聚合技术部署和优化,将输入的数值转换成最后一个指令或决定(“任务”)。 Distinction is made between supervised and unsupervised learning. While the former within healthcare can alleviate a diagnostic task and lead to extended understanding of key informative factors of a given pathology, the latter opens the way to discovering new phenotypes.
深度学习(DL)是目前最强大的机器学习算法。DL算法能够从原始(或小预处理)输入数据并构建本身复杂的抽象特性表征(有用的模式),使决策非常准确的任务。这是一个重大的革命,从传统机器学习依赖于显式的决策流程和规则。DL尤其性能在处理复杂的输入数据(大尺寸、大量的变量大变化)对划分,发现模式和提取识别信息。固有的限制,任何机器学习是依赖“培训”的数据和犯错误的风险,任何未来的“看不见的”情况下,如果训练队列不包括“类似”案件。测试任务的再现性性能质量一个独立队列是至关重要的。
它是如何工作的呢?
DL的基础是神经网络的使用。这些都是成堆的单位(“神经元”)组织成多个连接层(网络)。连接用重量来控制神经元内和跨层交换信息。层间非线性操作执行聚合数据到数据基于更抽象的表示组件被视为最“丰富”为目标的任务。学习过程调整权重,以优化任务的性能质量,按照一个明确的质量指标。的学习阶段是由多个迭代算法逐步提高自己,调节神经元之间的权重。最后的架构与学习权重形式的预测模型可用于新看不见的数据(图1)。层数定义的深度网络。网络越深,越抽象表示将和更复杂的任务是学习,但代价再培训(可以几个小时),需要更大的训练军团。
作为一个实际的例子,一个通用的网络体系结构(称为VGG19)来自于计算机视觉感兴趣的社区检测对象出现在照片(如。是一幅“猫”?),成功地训练有素的高分辨率计算机断层扫描(CT)肺部成像评估如果图像是慢性肺曲霉病(CPA)患者(是/否)1]。输入数据包括CT扫描(pre-segmented只显示肺部和最大强度投影转换压缩图像信息),和一个标签为每个扫描表明如果主题注册会计师。的管道图1使序列一代的“深功能”(设置值的“编码”中包含的视觉信息输入图像)和最后一个蓝色层执行“分类”任务,返回作为输出两个数值(红色和绿点)的概率主题输入CT扫描有注册会计师。实现这样的网络体系结构在技术上更加容易与开源专用软件库(2]。然而,训练网络的具体分类任务的成功取决于两个因素:1)临床医生仔细监督的组成图像数据库用于培训,确保代表患者群和平衡的控制情况下,在图像质量和避免偏见(如。单扫描类型,身体质量指数(BMI));2)数据科学家精心准备的数据正确地平衡每个类(使用例子的数量如。平衡性别、扫描仪类型、BMI)增加(即。变换)可变性的队列,以反映不同来源(如。旋转扫描来模拟不同病人的扫描仪,地位re-scaling模拟不同形态),并显示训练网络的鲁棒性分类的准确性决定一个独立的学科。
机器学习在呼吸医学
在医疗保健中使用机器学习的迅速扩张,在研究环境,最近,新兴在临床实践。呼吸系统药物也不例外。到目前为止,已经有无数的例子集成预测机器学习的脓毒症、肺癌预后和住院的风险与慢性阻塞性肺疾病(3- - - - - -5]。使用电子健康记录(EHR)和可穿戴式医疗传感器使访问大型数据集,可用于准确疾病表型,使风险的分类和预测治疗效果(6,7]。最近的一项研究自然医学提出了一个数据挖掘框架,电子健康档案数据集之前的医学知识和数据驱动建模。DL系统建于提取临床相关信息,随后建立诊断系统包括呼吸系统疾病(如。哮喘)基于临床特征提取,实现精度与有经验的临床医生(8]。
也许最大的面积的扩张,然而,在呼吸道内研究机器学习的应用成像(9]。图像分析使用卷积神经网络(CNN)是非常适合损伤检测、分割和分类。然而,肺提出具体挑战。与高水平的可变形的器官,正常的解剖变异,复杂的薄壁组织的结构,形态病变和进步的退行性疾病。这需要一种能力来识别损伤变量的形状,大小,周围组织的强度和高可变性。进一步挑战与变化大,图像质量通常依赖scanner-specific和通货膨胀水平。然而,已经取得了重大进展(10]。
肺内成像,取得了很大的努力开发和应用计算机辅助诊断(CAD)系统。DL使用胸片最近启用了肺结核的分类精度高(11]。检测肺结节的CT是另一个前景看好的领域是高度研究肺癌筛查项目的介绍。最近业绩承诺的DL CAD方法(12]。虽然敏感性和特异性的DL CAD系统区分固体结节> 5毫米(分别为90.3%和100.0%)和毛玻璃结节(分别为100.0%和96.1%)接近的双重阅读由独立的放射科医生,这个下降到55.5%和93%,分别当歧视固体部分结节从固体的13]。因此,仍然需要进一步细化之前实现到临床实践。
进一步活跃使用DL肺部成像研究领域包括气道优化分割,以及利用非常大军团如COPD-Gene执行遗传关联研究识别和描述成像表型(即。基因成像)[14]。在肺气肿和肺间质疾病、经典的机器学习方法改善了传统视觉评分使用特别的设计了基于图像的特性,描述10小说肺气肿放射亚型(15),使低成本、可再生的、近乎即时分类纤维化肺病的改进预测死亡率(16,17]。
与大型数据集包括电子病历的出现,射线成像和可穿戴传感器,开源软件工具,低成本的计算机硬件和图形处理单元,与社区共享代码和pre-trained模型、机器学习在呼吸医学和医疗保健的影响一般是稳步增加6]。用这个能力产生越来越大而复杂的数据集,一个重要的考虑是机构之间的共享数据库和准确的注释,使培训DL模型18,19]。质量标签和注释病人隐私的前提下能够显著的进步。集成radiomic数据与互补的组学数据集(如。基因组学、蛋白质组学)将使一个高度个性化的诊断和治疗方法与最新进展在肿瘤包括肺癌强调这种潜在的(20.,21]。这种进化,然而,将为临床医生和临床试验方法创建越来越复杂的场景设计。
虽然机器学习是一项功能强大的技术,这是可以理解的视为一个“黑盒子”[22]。机器学习可以是用于启用自动化或作为决策支持。这种区别在设计和整合系统是至关重要的。临床医生和病人不信任的自动化没有解释是可以理解的。“简单”AI因此一直是最近的焦点,作为长期成功可能取决于患者和临床医生的能力去理解和解释预测或诊断(23]。因此一个显而易见的解决方案是使用机器学习算法作为决策支持工具。然而,成功的关键可能是数据可视化,以最省时的方式可解释性和信任使共享决策过程与患者(24]。
可共享的PDF
脚注
利益冲突:e·安杰里尼没有披露。
利益冲突:美国Dahan没有披露。
利益冲突:a .沙没有披露。
- 收到了2019年6月20日。
- 接受2019年9月26日。
- 版权©2019人队