|
3#
楼主 |
发表于 2018-2-24 22:10:33
|
只看该作者
本帖最后由 顾汉现 于 2018-2-24 22:13 编辑
软件译:
Cell 卷172,第5期,第1122-1131.e9号,2018年2月22日
资源
通过基于图像的深度学习识别医疗诊断和可治疗疾病
Daniel S. Kermany 14, 迈克尔戈尔德鲍姆14, 蔡文佳14, Carolina CS Valentim 14, 惠英良14, 莎莉L.巴克斯特14, Alex McKeown, 葛阳, 小康武, Fangbing Yan, Justin Dong, 制造K. Prasadha, 杰奎琳培, Magdalena Ting, 杰珠, 克里斯蒂娜李, Sierra Hewett, Jason Dong, 伊恩齐亚尔, 亚历山大史, Runze Zhang, 郑良红, 瑞厚, 史威廉, 新富, 段亚端, Viet AN Huu, 辛迪温, Edward D. Zhang, 夏洛特L.张, 欧兰丽, 王晓波, 迈克尔A.歌手, 孙晓东, 许杰, 阿里Tafreshi, M.安东尼刘易斯, 惠敏霞, 张康15 ,作者信息作者张康邮件提交人张康“
14 这些作者的贡献相同
15 首席联络人
PlumX指标
详细了解文章指标
DOI:https: //doi.org/10.1016/j.cell.2018.02.010 |
显示文章信息
PDF(4 MB)
下载图像(.ppt)
电邮文章
添加到我的阅读列表
导出引文
创建引文提醒
引用在Scopus(0)
请求权限
订单重印
(100最低订单)
概要
全文
方法
图像/数据
参考
相关文章
注释
强调
•开发了一种使用传递学习技术的人工智能系统
•它有效地将图像分类为黄斑变性和糖尿病性视网膜病变
•它还准确地区分胸部X光片上的细菌和病毒性肺炎
•这对于生物医学成像中广泛的高影响应用具有潜力
概要
用于医学成像的临床决策支持算法的实施面临着可靠性和可解释性的挑战。在这里,我们建立了一个基于深度学习框架的筛查普通可治疗致盲性视网膜疾病的诊断工具。我们的框架利用转移学习,它使用传统方法的一小部分数据来训练神经网络。将这种方法应用于光学相干断层扫描图像数据集,我们证明其性能与人类专家在分类年龄相关性黄斑变性和糖尿病性黄斑水肿方面的性能相当。我们还通过突出显示由神经网络识别的区域来提供更加透明和可解释的诊断。我们进一步证明了我们的AI系统在使用胸部X射线图像诊断小儿肺炎方面的普遍适用性。这种工具可能最终有助于加快这些可治疗病症的诊断和转诊,从而促进早期治疗,从而改善临床结果。
介绍
人工智能(AI)有可能通过对人类专家进行分类困难并快速审查大量图像来彻底改变疾病的诊断和管理。尽管AI具有潜力,但AI的临床可解释性和可行性准备仍然充满挑战。
传统的分类图像分析算法依赖于(1)手工分割对象,然后(2)使用统计分类器或专门为每类对象设计的浅层神经计算机器学习分类器识别每个分割对象,最后(3)图像分类(Goldbaum等,1996)。创建和提炼多个分类器需要许多技术熟练的人员和很多时间,并且计算量很大(Chaudhuri等,1989,Hoover和Goldbaum,2003,Hoover等,2000)。
卷积神经网络层的发展使图像分类和检测图像中物体的能力得到显着提高(Krizhevsky等,2017,Zeiler and Fergus,2014)。这些是应用了图像分析过滤器或卷积的多个处理层。每层中图像的抽象表示是通过在图像上系统地卷积多个滤波器来构建的,从而生成一个特征图,用作后一图层的输入。这种架构可以将像素形式的图像作为输入进行处理,并将所需的分类作为输出。一个分类器中的图像分类方法取代了之前图像分析方法的多个步骤。
解决特定领域缺乏数据的一种方法是利用来自类似领域的数据,这是一种称为转移学习的技术。转移学习被证明是一种非常有效的技术,尤其是当面对数据有限的领域时(Donahue等,2013,Razavian等,2014,Yosinski等,2014)。通过使用前馈方法来修正已经优化的较低级别的权重,以识别图像中发现的结构并通过反向传播重新训练较高级别的权重,而不是通过训练完全空白的网络,该模型可以识别特定类别图像(如眼睛图像)的显着特征要快得多,训练样例少得多,计算能力也少(图1)。
在这项研究中,我们试图开发一种有效的转移学习算法来处理医学图像,以提供每个图像中关键病理的准确和及时的诊断。该技术的主要例证涉及视网膜的光学相干断层扫描(OCT)图像,但该算法也在儿科胸部X光片队列中进行了测试,以验证该技术在多种成像模式中的普遍性。
结果
我们的转移学习算法的主要应用是在视网膜OCT图像的诊断中。光谱域OCT使用光来捕获视网膜的高分辨率体内光学截面,其可以组装成活视网膜组织的三维体积图像。它已成为最常用的医学成像程序之一,每年在全球范围内进行大约3000万次OCT扫描(Swanson和Fujimoto,2017)。OCT成像现在成为指导诊断和治疗全球一些主要盲症的标准治疗方法:年龄相关性黄斑变性(AMD)和糖尿病性黄斑水肿。在美国,将近1,000万人患有AMD,每年有超过20万人发展出脉络膜新血管形成,这是一种严重的致盲形式的AMD(Ferrara,2010,Friedman等,2004,Wong等,2014) 。另外,近75万名40岁以上的人患有糖尿病性黄斑水肿(Varma等,2014),这是一种视力威胁形式的糖尿病性视网膜病变,其涉及中央视网膜中的液体积聚。由于人口老龄化和全球糖尿病的流行,这些疾病的流行率可能会随着时间的推移而进一步增加。幸运的是,抗血管内皮生长因子(抗血管内皮生长因子)药物的出现和广泛应用已经彻底改变了渗出性视网膜疾病的治疗方法(Kaiser等,2007,Ferrara,2010),使患者能够保留有用的视力和质量生活。OCT对指导抗VEGF治疗的施用至关重要,通过在这些病症中提供清楚的视网膜病理学截面表示(图 2A),允许个体视网膜层的可视化,这对于人眼临床检查是不可能的或通过彩色眼底摄影。
患者和图像特征
我们最初获得207,130个OCT图像。来自4,686名患者的108,312张图像(37206张脉络膜新生血管,11,349张糖尿病性黄斑水肿,8,617张玻璃膜疣和51,140张正常照片)通过了初始图像质量评估并用于培养AI系统。使用来自633名患者的1,000幅图像(来自每个类别的250幅)对该模型进行测试。表S1列出了每种诊断类别的患者特征。经过100个时期(迭代通过整个数据集)后,由于精度(图3A)和交叉熵损失(图 3B)两者缺乏进一步改善,停止了训练。
模型的性能
我们评估了我们的AI系统,用于诊断最常见的致盲性视网膜疾病。这种AI系统将脉络膜新生血管和具有糖尿病性黄斑水肿的图像归类为“紧急转诊”。这些情况需要相对紧急的转诊给眼科医生进行明确的抗-VEGF治疗; 如果治疗延迟,出血,瘢痕形成或其他引起不可逆性视力损害的下游并发症的风险增加。该系统将带有玻璃膜疣的图像归类为“常规转诊”,其为干性黄斑变性中存在的脂质沉积物。抗VEGF药物不用于干性黄斑变性; 因此,转诊给玻璃疣的眼科专家不那么紧迫。正常图像标记为“观察”。在脉络膜新生血管化,糖尿病性黄斑水肿,玻璃膜疣和正常人之间的多级比较中,我们达到了96.6%的准确性(图4),灵敏度为97.8%,特异性97.4%,加权误差6.6%。生成受试者工作特征(ROC)曲线以评估该模型区分紧急转诊(定义为脉络膜新血管形成或糖尿病黄斑水肿)与玻璃疣和正常检查的能力。ROC曲线下面积为99.9%(图4)。
我们还训练了一个“有限模型”,在相同的四个类别之间进行分类,但仅使用从训练期间每个班级随机选择的1,000幅图像,以比较使用有限数据的传输学习性能与使用大型数据集的结果的对比。使用相同的测试图像,该模型实现了93.4%的准确性,灵敏度为96.6%,特异性为94.0%,加权误差为12.7%。ROC曲线区分紧急转诊(即与脉络膜新血管形成或糖尿病性黄斑水肿区别的图像与正常图像具有98.8%的曲线下面积。
二元分类器也用来比较正常的脉络膜新生血管/糖尿病性黄斑水肿/玻璃膜疣,使用相同的数据集来确定模型性能的分解(图S1)。区分脉络膜新生血管图像与正常图像的分类器的准确率为100.0%,灵敏度为100.0%,特异度为100.0%。ROC曲线下面积为100.0%(图S2A)。将糖尿病黄斑水肿图像与正常图像区分开的分类器准确率为98.2%,灵敏度为96.8%,特异性为99.6%。ROC曲线下面积为99.87%(图 S2B )。分类器将玻璃膜疣图像与正常图像区分开来的准确率为99.0%,灵敏度为98.0%,特异性为99.2%。ROC曲线下面积为99.96%(图S2C)。
该模型与人类专家的比较
使用来自633名患者的1,000张图像的独立测试集来比较AI网络的推荐决定与人类专家做出的决定。在学术眼科中心有6位具有丰富临床经验的专家被指示仅使用患者的OCT图像对每位测试患者作出转诊决定。临床上最重要的决定区分需要紧急转诊的患者(脉络膜新生血管或糖尿病性黄斑水肿患者)与正常患者相比的表现显示为ROC曲线,AI系统和人类专家之间的表现相当(图4一个)。
建立了标准的专家绩效评估系统之后,我们接下来比较了我们的网络和人类专家对患者转诊决定的潜在影响。将专家的敏感性和特异性绘制在训练模型的ROC曲线上,并且通过模型和人类专家之间的似然比测量的诊断性能的差异在95%置信区间内被确定为在统计学上相似(图S3)。然而,纯粹的错误率并不能准确地反映错误的转诊决定可能对个别患者的结果产生的影响。举例来说,当患者正常或有玻璃疣时,假阳性结果会发生,但不准确地标记为紧急转诊,这可能会给患者造成不必要的困扰或不必要的调查,并给医疗系统带来额外负担。然而,假阴性结果要严重得多,因为在这种情况下,脉络膜新血管形成或糖尿病性黄斑水肿的患者未被适当引用,这可能导致不可逆转的视觉丧失。为了解决这些问题,在模型评估和专家测试中加入了加权误差评分(图S4 A)。通过将这些惩罚点分配给由模型和专家做出的每个决定,我们计算了每个的平均误差。
在这个加权误差系统下,最好的卷积神经网络模型得出了6.6%的分数。专家的加权误差范围为0.4%至10.5%,平均加权误差为4.8%(表S2)。每位专家在预测标签与真实标签相关性方面的表现的确切分类在图S4B中被描述为混淆矩阵。如图4所示,最佳模型根据该加权标度和ROC曲线。
阻塞测试
我们对491张图像进行了遮挡测试,以确定对神经网络预测诊断分配贡献最大的区域。该测试成功地确定了对深度学习算法贡献最大重要性的94.7%的图像中的感兴趣区域(图5A ;另参见图S5)。在所有图像的100%中通过阻塞测试正确定位玻璃疣,而脉络膜新血管形成产生94.0%的准确性,并且糖尿病性黄斑水肿获得91.0%的准确性(表S3)。此外,通过闭塞测试确定的这些区域也被人类专家证实是最具临床意义的病理学领域。
AI系统在胸部X线图像检测肺炎中的应用
为了研究AI系统在常见疾病诊断中的普遍性,我们将相同的转移学习框架应用于小儿肺炎的诊断。据世界卫生组织(世卫组织)称,肺炎每年会杀死约2百万5岁以下的儿童,并一直被认为是导致儿童死亡的唯一主要原因(Rudan等人,2008年),比艾滋病毒/艾滋病死亡人数更多,疟疾和麻疹总和(Adegbola,2012)。世卫组织报告说,几乎所有的新发儿童临床肺炎病例(95%)都发生在发展中国家,特别是东南亚和非洲。细菌和病毒病原体是导致肺炎的两个主要原因(Mcluckie,2009),但需要非常不同的管理形式。细菌性肺炎需要紧急转诊立即进行抗生素治疗,而病毒性肺炎需要辅助治疗。因此,准确及时的诊断势在必行。诊断的一个关键要素是放射照相数据,因为胸部X光照片通常作为护理标准获得,可以帮助区分不同类型的肺炎(图S6)。然而,对于图像的快速放射学解释并不总是可用的,特别是在儿童时期肺炎发病率最高,死亡率最高的低资源环境中。为此,我们还调查了我们的转移学习框架在分类小儿胸部X射线以检测肺炎方面的有效性,并进一步区分病毒性和细菌性肺炎,以便为需要紧急干预的儿童快速转诊。
我们收集并标记来自儿童的总共5,232张胸部X射线图像,其中包括3,883张特征为描绘肺炎(2,538个细菌和1,345个病毒)和1,349个正常的来自总共5,856名患者的训练AI系统。然后用624例患者的234个正常图像和390个肺炎图像(242个细菌和148个病毒)对该模型进行测试。在模型的100个时期(通过整个数据集的迭代)之后,由于损失和准确性都没有进一步改善(图6A和6B),停止了训练。
在胸部X线表现为肺炎与正常的比较中,我们达到了92.8%的准确性,灵敏度为93.2%,特异性为90.1%。ROC曲线下检测肺炎的面积为96.8%(图6 E)。细菌和病毒性肺炎的二元比较导致90.7%的测试准确度,灵敏度为88.6%,特异性为90.9%(图 6C 和6D)。区分细菌和病毒性肺炎的ROC曲线下面积为94.0%(图 6F )。
|
|