深度学习算法在胸片恶性肺结节检测中的作用

福建白癜风医院 http://pf.39.net/bdfyy/bjzkbdfyy/140721/4429412.html

摘要

意义:肺结节检出的改进是胸片的一项具有挑战性的工作,有助于提高胸片在肺癌诊断中的作用。

目的:评估基于深度学习的结节检测算法在全国肺筛查试验(NLST)参加者胸片上检测肺癌的性能。

设计、背景和参加者:这项诊断研究使用了来自NLSTRO参与者的数据,评估了基于深度学习的人工智能(AI)算法在胸片上检测肺结节和肺癌的性能。名参与者的基线(T0)后前方胸片(完整的T0数据集)被用来评估肺癌检测性能,张这些图像的子集(结节数据集)被用来评估结节检测性能。参与者年龄在55岁到74岁之间。关于肺癌诊断的信息收集至年12月31日。在年8月20日至年2月14日对数据进行信息分析。

结果:共纳入名参与者(平均年龄61.7[5.0]岁;名男性[55.2%]),中位随访时间6.5年(四分位数范围6.1-6.9年)。对于结节数据集,AI算法检测肺结节的灵敏度和特异度分别为86.2%(95%CI,77.8%~94.6%)和85.0%(95%CI,81.9%~88.1%)。对所有肿瘤的诊断灵敏度为75.0%(95%CI,62.8%~87.2%),特异性为83.3%(95%CI,82.3%~84.3%),阳性预测值为3.8%(95%CI,2.6%~5.0%),阴性预测值为99.8%(95%CI,99.6%~99.9%)。全组T0图像检测恶性肺结节的敏感性为94.1%(95%CI,86.2%~.0%),特异度为83.3%(95%CI,82.3%~84.3%),阳性预测值为3.4%(95%CI,2.2%~4.5%),阴性预测值为.0%(95%CI,99.9%~.0%)。与NLST放射科医师相比,AI算法对结节诊断的灵敏度(96.0%[95%CI,88.3%~.0%]vs88.0%[95%CI,75.3%~.0%];P=.32)和特异性(93.2%[95%CI,89.9%~96.5%]vs82.8%[95%CI,77.8%~87.8%];P=.)。用于数字化的恶性肺结节检测,在全T0数据集上,AI算法的灵敏度(.0%[95%CI,.0%~.0%]vs94.1%[95%CI,82.9%~.0%];P=.32)高于NLST放射科医师。特异度(90.9%[95%CI,89.6%~92.1%]vs91.0%[95%CI,89.7%~92.2%];P=.91),阳性预测值(8.2%[95%CI,4.4%-11.9%]vs7.8%[95%CI,4.1%-11.5%];P=.65),阴性预测值(.0%[95%CI,.0%-.0%]vs99.9%[95%CI,99.8%-.0%];P=.32)与NLST放射科医师相似。

结论和相关性:在这项研究中,AI算法在检测数字X线片上的肺结节方面比NLST放射科医生表现得更好。当用作第二个阅读器时,AI算法可能有助于检测肺癌。

一、背景

研究胸片和低剂量CT作为肺癌筛查工具的大型随机临床试验报告了低剂量CT筛查可降低高危人群肺癌死亡率。因此,大多数国家建议在高危人群中只使用低剂量CT进行肺癌筛查。然而,实体成本与低剂量CT相关;与胸片相比,CT不易进行且更昂贵,使患者暴露在更高剂量的辐射下,并且产生更高比例的假阳性和偶然发现,这可能导致额外的实验室检测并增加患者的焦虑。

胸片避免了许多与低剂量CT相关的问题,但是作为筛查工具的胸片生存益处尚未得到充分检验。由于射线成像的对比度分辨率和二维投影性质有限,在胸片上检测肺癌对放射科医生来说是具有挑战性的,肿瘤特征,如病灶大小、显着性和位置,都是导致检测错误的独立因素,并且在解释胸片时可能会导致漏诊。

由于这些原因,在大多数国家,低剂量CT是高危人群肺癌筛查的推荐方式。然而,在常规胸片上,相当大比例的偶然发现的肺癌病例被诊断为恶性肺结节。现有的研究已经检验了用于胸片异常图像分类的各种深度学习模型和技术。在过去的5年中,已经测试了几种人工智能(AI)算法来减少放射科医生的错误和提高胸片上肺结节的检出率。本研究的目标是评估经过肺结节检测训练的人工智能算法是否可以应用于多中心国家肺筛查试验(NLST)参与者的胸片上的肺癌检测,以验证我们的人工智能方法的普适性和准确性。

二、方法

这项诊断研究使用单独的训练(内部)和验证(NLST)数据集,评估了基于深度学习的AI算法在胸片上检测肺结节和肺癌的性能。

三、综述

我们的回顾性分析使用了来自NLST参与者的数据,NLST是一项多中心随机临床试验,比较了低剂量CT和胸部摄影在高危人群筛查中的作用。从年8月到年4月,在美国33个中心登记了符合条件的参与者,并随机接受低剂量CT筛查或胸片筛查。如果参与者年龄在55岁到74岁之间,且每年至少吸30包香烟,那么他们就有资格进行筛查;如果以前吸烟的参与者在过去15年内戒烟,他们也有资格参与。参与者每年接受了3次胸部X光检查(T0、T1和T2),并进行了随访,直到年12月31日,肺癌发病率和死亡率,这是研究的主要终点。通过美国放射成像学会网络登记的名参与者中,来自21个地点的名参与者(其中83%是随机选择的)拥有有效的医学数字成像和通信文件(完整的T0数据集),被纳入我们的分析。

胸部X线片包括来自多个提供者的图像,这些图像是使用各种类型的胸部X线片获得的。对于每一张图像,参与NLST研究的放射科医生都注明了存在的异常类型,并对任何提示肺癌的发现(即结节4毫米或增大的结节、肿块和其他非特异性异常)的存在进行了评论,以保证进一步的诊断评估。

四、准备和注释

为了评估AI算法检测肺结节的性能,选择了幅基线(T0)图像的子集(结节数据集),并在临床信息或随访影像学检查的辅助下对是否存在结节进行了重新注释。首先,我们选择了48名在T0筛查后1年内被诊断为肺癌的患者的胸片。其次,我们选择了50名患者的胸部X线片,这些患者接受了全部3年的筛查X线片,并有非钙化结节(NLST放射科医生注释),但没有肺癌诊断。第三,我们选择了名不符合前两项标准的患者的胸片。为了减少选择偏差,胸片按照编码的患者识别号的顺序依次选择。一张没有包括整个肺部图像的胸部X光片被移除。在选择过程中,每个患者最多选择1张胸片。结节数据集由2名放射科医生标记。每位放射科医生独立评估T0胸片是否存在影像水平大于或等于4mm的非钙化结节。

五、用于分析的算法

我们使用商业上可用的人工智能算法(LunitInsightCXR)来分析最初的胸片。我们选择的人工智能算法是以残差神经网络34(ResNet-34)为基本结构的深度卷积神经网络。在预处理步骤中,利用窗口信息对医学数字影像与通信文件的原始像素图进行归一化处理,并将归一化后的像素图作为人工智能模型的输入。将图像级概率分数从输出概率图中最大集合(通过减少来自前一卷积层的输出中的像素数来降低图像的维数的技术),以生成介于0和之间的最终异常分数。商业人工智能算法产生了10个异常的概率图和评分;然而,在这项研究中只使用了对应于非钙化结节的输出。

训练集包括张带有肺结节或肿块的异常图像,这些图像来自经病理和/或放射学证实的疾病患者,由15名获得委员会认证的放射科医生(具有7-14年经验)中的至少1名进行核实,以及张正常图像,所有图像医院。训练图像包括数字和计算机射线照片,在模型训练过程中没有使用任何NLST数据。

六、性能评估

如果AI算法对整个图像产生的异常分数高于操作点,则认为AI算法分析的图像为阳性。操作点用于在图像水平上对非钙化结节的存在进行分类。在结节数据集中,恶性和良性未钙化结节均标记为阳性,且任一类型的检测均为真阳性。在我们的分析中,人工智能模型的操作点被设置为15.0,这是根据内部验证集中的Youden标准选择的。在此操作点,AI模型对内部验证集中异常图像分类的灵敏度为96.6%,特异度为94.1%。为了评估NLST放射科医生的表现,我们使用了NLST数据集中提供的两个标签:结节标签,它记录了非钙化结节或肿块的存在,以及癌症标签,它记录了4毫米或更大的结节、肿块或其他提示肺癌的非特异性异常。

在平衡测试数据集上分析AI算法与NLST放射科医师在检测结节、肺癌和恶性肺结节方面性能的变化。在结节数据集中,随机选择具有1:1、1:2和1:3结节与非结节比率的非结节。在完整的T0数据集中,随机选择非癌肺结节和非恶性肺结节的比例分别为1:1、1:2和1:3,恶性肺结节和非恶性肺结节的比例分别为1:1、1:2和1:3。结节标记用于评估NLST放射科医师在结节检测方面的表现;癌症标记用于癌症和恶性结节的检测。

七、统计分析

通过接收器工作特性(ROC)分析来评估AI算法在结节数据集中的分类性能。为了比较AI算法与NLST放射科医师的灵敏度和特异度,使用了McNemar检验。为了比较AI算法与NLST放射科医师的阳性预测值(PPV)和阴性预测值(NPV),使用广义得分统计。比较AI算法与NLST放射科医师在所有X线片、数字X线片和计算机X线片上的性能。使用线性加权κ评估每个地面真实注释器和NLST放射科医生之间关于非钙化结节注解的一致性。我们使用00次引导复制计算了95%的性能和一致性度量配置项。在所有测试中,P0.05被认为具有统计学意义。所有统计分析均使用R软件。分析是在年8月20日至年2月14日之间进行的。

八、结果

排除1名只有侧位胸片的参与者和5名医学数字图像和通讯文件受损的参与者后,总共包括名患者(平均[SD]年龄,61.7[5.0]岁;名男性[55.2%];中位随访时间6.5年[四分位数范围,6.1-6.9年])。在名具有有效T0胸片用于进一步分析的参与者中,48名患者(0.9%)在基线成像后1年内被诊断为肺癌。为结核数据集选择了名参与者的子集。具有有效T0后前位图像的参与者和为结节数据集选择的参与者的人口统计学特征如表1所示。

在48名在基线成像后1年内被诊断为癌症的参与者中,有34名参与者的胸片上有明显的恶性结节。在其他14名参与者中,11名参与者的胸部X线片中没有明显的病变,3名参与者有其他提示肺癌的放射学表现,包括肺不张(n=1)、胸膜增厚(n=1)和肺门淋巴结病变(n=1)。

评估每个区域真实注解和NLST放射科医生对非钙化结节注解的一致性。每个区域真实注解(κ=0.55;95%CI,0.47~0.64)与NLST放射科医师(κ=0.60;95%CI,0.52~0.69)有一定的一致性。

九、结节检测性能研究

评估了AI算法与NLST放射科医生在检测结节数据集中未钙化结节方面的性能。所有胸片的ROC曲线下面积(AUROC)分别为0.93(95%CI,0.90~0.96)、0.99(95%CI,0.97~1.00)和0.86(95%CI,0.79~0.93)(图1)。NLST放射科医师的灵敏度和特异度对(图1中的X表示)在数字X线片的ROC曲线之下,而在计算机X线片的ROC曲线之上。

AI算法和NLST放射科医师在从内部验证集选择的所有操作点处的灵敏度(86.2%[95%CI,77.8%~94.6%]vs87.7%[95%CI,79.7%~95.7%];P=.80)和特异度(85.0%[95%CI,81.9%~88.1%]vs86.7%[83.8%~89.7%];P=.42)均无统计学意义。在其他工作点的结核检测性能如本补充资料中的电子图1所示。

图1.人工智能算法与NLST放射科医师检测结节数据集中非钙化结节性能的接收器工作特性曲线。

彩色线条表示人工智能算法的结果,彩色X表示NLST放射科医生的结果。AUROC表示ROC曲线下的面积;CR,即计算机射线成像;DR,即数字射线成像;以及NLST,即国家肺部筛查试验。

AI算法的灵敏度和特异度均高于NLST放射科医师(灵敏度为96.0%[95%CI,88.3%~.0%]vs88.0%[95%CI,75.3%~.0%],P=0.32;特异度,93.2%[95%CI,89.9%~96.5%]vs82.8%[95%CI,77.8%~87.8%];P=.37;但低于NLST放射科医师的计算机X线检查(灵敏度,77.8%[95%CI,64.2%-91.4%]vs86.1%[95%CI,74.8%-97.4%];P=0.37;特异度,78.8%[95%CI,73.9%-83.8%]vs90.4%[95%CI,86.8%-94.0%];P0.)。在结节数据集中存在的总共65个未钙化的结节或肿块,AI算法检出56个结节或肿块(包括NLST放射科医师漏诊的7个结节或肿块),NLST放射科医师检出57个结节或肿块(包括AI算法漏检的8个结节或肿块),49个结节或肿块同时检出,1个结节或肿块两者均漏检。

十、癌症检测性能

AI算法与NLST放射科医生在检测结节数据集和完整的T0数据集中所有癌症和恶性肺结节的性能比较如本增补件的表2和表1所示。对于全T0数据集所有胸片中的所有癌症,AI算法的灵敏度、特异度、PPV和NPV分别为75.0%(95%CI,62.8%~87.2%)、83.3%(95%CI,82.3%~84.3%)、3.8%(95%CI,2.6%~5.0%)和99.8%(95%CI,99.6%~99.9%)。在48例筛查后1年内接受肺癌诊断的受试者的所有图像中,AI算法检出36例,NLST放射科医师检出41例,两者均检出33例,4例同时漏检。

表1.参与者特征

表2.人工智能算法与国家肺部筛查试验放射科医师的性能比较

缩写:AI,人工智能;NLST,国家肺部筛查试验;NLST癌症,国家肺部筛查试验放射科医生使用癌症标签;NLST结节,国家肺部筛查试验放射科医生使用结核标签;T0,基线。

图2.NLST放射科医师遗漏但人工智能算法检测到的恶性肺结节患者的额位胸片。

在全部T0数据集中,AI算法检测恶性肺结节的灵敏度、特异性、阳性预测值和阴性预测值分别为94.1%(95%CI,86.2%~.0%)、83.3%(95%CI,82.3%~84.3%)、3.4%(95%CI,2.2%~4.5%)和.0%(95%CI,99.9%~.0%)。在成像后1年内接受肺癌诊断的34例恶性肺结节患者的所有图像中,AI算法检出32例,NLST放射科医师检出32例,两者均检出30例,均漏检0例。

AI算法的性能(由AUROC、灵敏度和特异度测量)和NLST放射科医生的性能(由灵敏度和特异度测量)在所有任务的控制图像的不同比率(1:1、1:2和1:3)下保持一致(附录表2)。AI算法和NLST放射科医生在不同控制组比率下的性能的微小变化都在所有任务的结节数据集和完整T0数据集的性能的95%的CI范围内。

十一、讨论

在这项研究中,我们应用了一种最初训练用于肺结节检测的人工智能算法来检测胸片上的肺癌。在结节数据集中,AI算法检测结节的灵敏度和特异度分别为86.2%和85.0%。当同样的AI算法应用于癌症检测时,AI算法的灵敏度(76.0%vs80.0%)和PPV(9.1%vs9.8%)与NLST放射科医师对所有癌症的检测结果相似。在全T0数据集的数字X线片中,检出恶性肺结节的灵敏度(.0%比94.1%)和阳性预测值PPV(8.2%比7.8%)也与NLST放射科医师相似。我们还观察到,即使控制图像的比例发生变化,AI算法的性能也保持一致。虽然本研究中AI算法检测肺癌的灵敏度低于报道的低剂量CT的灵敏度(93.8%),但与放射科医生报道的胸部X线片的灵敏度(73.5%)相似。

在这项研究中使用的结节数据集包括良性和恶性结节的胸部X线片以及其他异常的胸部X线片,如实变和肺气肿。尽管我们设计了结节数据集,AI算法仍然保持了高性能的结节检测。在我们的研究中,结节检测的总AUROC为0.93(95%CI,0.90-0.96),这与NAM9和Majkowska等人的研究报道的0.92到0.99的AUROC和Majkowska等在美国国立卫生研究院(NationalInstitutesOfHealth)胸部X光数据集的14种常见胸部疾病数据中报告的0.91相似。

值得注意的是,我们还观察到AI算法在数字射线照片(AUROC,0.99)中的性能要好于在计算机射线照片(AUROC,0.86)中的性能。虽然用于训练人工智能模型的数据包括数字和计算射线照片,但在训练期间可能没有遇到包括在结节数据集中的较旧的计算机射线照片质量较差的情况,这将是计算射线照片中人工智能算法性能降低的原因。因此,人工智能模型不能与NLST放射科医师在检测计算机射线照片中的非钙化结节方面的性能相提并论。

在本研究中,与NLST放射科医师相比,AI算法对所有癌症和恶性肺结节的检测具有更低的PPV和相似的NPV。在较老的计算机X线片中,人工智能算法经常提供假阳性读数,从而产生较低的PPV。然而,在更现代的数字X线片上,AI算法在灵敏度方面比NLST放射科医生表现得更好,并且在检测所有癌症和恶性肺结节方面具有与NLST放射科医生相似的PPV。这一发现表明,当算法在具有不同于训练集特征的测试集上执行时,应该谨慎地解释人工智能结果。

我们研究的最重要贡献之一是对AI算法的性能进行了评估,该算法最初设计用于检测肺结节,用于癌症检测,使用NLST的数据集,NLST是一项多中心随机临床试验,目前通过成像进行肺癌筛查的选择标准是基于NLST的。尽管NLST数据集中的肺癌患病率可能比普通人群更高,但该测试集包括了临床实践中可能遇到的一系列疾病。

当AI算法应用于任何肺癌的检测时,其检测性能略有下降,但对于恶性肺结节的检测,AI算法具有较高的性能。在全T0数据集中对所有肺癌病例的回顾性放射学评估表明,48例全癌病例中只有34例表现为恶性结节。其余14例中,11例无明显病变,3例有其他影像学表现,例如肺门淋巴结病变、胸膜异常和叶下肺不张,如文献中所描述的。由于本研究中使用的人工智能算法是专为检测肺结节或肿块而设计的,因此该算法很可能遗漏了未表现为恶性肺结节的肺癌病例。

在全T0数据集的数字X线片中,AI算法检测恶性肺结节的灵敏度高于NLST放射科医生,无论是通过结节标记还是癌症标记来评估,AI算法对恶性肺结节检测的灵敏度都高于NLST放射科医生。此外,尽管与NLST放射科医生相比,AI模型对所有癌症的检测灵敏度较低,但根据结节标签的评估,AI模型的灵敏度仍高于NLST放射科医生。这些结果表明,AI算法不仅对于检测非钙化结节,而且对于检测恶性肺结节都有很好的灵敏度,甚至比放射科医生的表现更好。

在这项研究中,在NLST放射科医生和区域真实注解之间具有适度的一致性。考虑到胸片中肺结节检测的读者间可变性,我们认为,在只有一个读取者解读胸片的情况下,放射科医生错误标记的可能性将很高。Majkowska等人最近的一项研究表明,对于人工智能算法和放射科医生检测到的各种类型的病变,存在大量不重叠的真阳性发现。这一发现与我们的研究结果是一致的,我们的研究发现,放射科医生漏掉的几个非钙化结节和恶性肺结节只能通过AI算法检测到,反之亦然。在结节数据集中出现的65个未钙化的结节或肿块中,有8个结节或肿块被NLST放射科医师遗漏,其中7个也是仅通过AI算法检测到的。此外,在总共34个恶性肺结节中,有2个是NLST放射科医师仅通过AI算法检测到的(图2)。这些发现强调了在解释肺结节的胸片时,人工智能算法作为第二阅读者的价值。

A,60多岁女性胸片(无人工智能检测)。这名妇女在基线成像86天后被诊断为肺癌。B、60多岁女性胸片(人工智能检测)。AI算法检测到左侧肺门周围区域遗漏的细微异常(绿色,结节评分为38%)。C、50多岁男性胸片(AI)未检出。这名男子在基线成像天后被诊断为肺癌。D、50多岁男性胸片(人工智能检测)。AI算法检测到右上肺区遗漏的亚厘米结节(绿色,结节评分为53%)。

AI表示人工智能;NLST表示国家肺部筛查试验。

十二、局限性

我们的研究有几个局限性。首先,尽管NLST包括了肺癌高危人群,但肺癌的患病率仍然很低,只有48名肺癌患者可以纳入目前的分析。由于癌症患者人数较少,AI算法和NLST放射科医生之间的敏感度差异很难达到统计学意义。其次,由于NLST数据是在至年间收集的,胸部X光片的质量可能低于使用现代设备获得的质量;这种劣势可能导致人工智能算法(特别是对于计算机化的X光片)表现不佳,该算法是在年后获得的胸部X光片上进行训练的。性能的下降在计算机摄影中尤为明显;被AI算法遗漏的但由NLST放射科医师发现的2个恶性结节都来自计算机摄影(附录中的图2)。第三,NLST放射科医生一词是指参与NLST的一批放射科医生,个别放射科医生的实际表现可能与NLST放射科医生的集合表现不同。第四,结节的区域真实标记是在没有配对CT图像的情况下生成的,因此标记可能是不准确的。第五,我们没有通过进行一项由不同的放射科医生组成的前瞻性研究来评估AI算法作为第二个阅读者的增量价值,AI算法的表现可能与NLST放射科医生不同。第六,胸部X线片不再被推荐用于肺癌筛查;因此,这项研究的结果可能不会用于肺癌筛查。。

十三、结论

与NLST放射科医师相比,AI算法对数字X线片上所有非钙化结节和恶性肺结节的检测效果更好。AI算法可能通过检测更多的恶性肺结节来帮助检测肺癌。

参考文献

1.deKoningHJ,vanderAalstCM,deJongPA,etal.Reducedlung-cancermortalitywithvolumeCTscreeningina

randomizedtrial.NEnglJMed.;(6):-.doi:10./NEJMoa

2.AberleDR,AdamsAM,BergCD;NationalLungScreeningTrialResearchTeam.Reducedlung-cancermortality

withlow-dose


转载请注明:http://www.pdnns.com/wazz/11996.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 当前时间: