您好,欢迎来到云平学术网!商务合作:journal199@163.com,投稿邮箱:vzazhiqk@163.com

首页 > 学术资讯 > 论文发表技巧系列 > 基于AI的胸部CT肺结节良恶性预测模型的开发与多中心验证

基于AI的胸部CT肺结节良恶性预测模型的开发与多中心验证

上传时间:时间:2025-08-27 17:38:01

  • 关键词:
  • 基于AI;胸部CT肺结节;良恶性;预测模型;开发;多中心验证

目的:构建并验证一种端到端深度学习模型,用于在胸部 CT 上自动鉴别良恶性肺结节,并评估其在不同设备、不同地域人群中的泛化能力。  

设计:多中心、回顾性模型开发与外部验证研究。  

地点:训练/调优数据来自 3 家三级医院(A、B、C),外部测试数据来自 2 家独立医院(D、E)。  

受试者:2018 年 1 月–2023 年 12 月行胸部 CT 的 11 820 例肺结节患者(恶性 3 967 例,良性 7 853 例)。  

干预:采用 3D-ResNet50 架构,以原始 DICOM 为输入,输出良恶性概率。  

主要终点:受试者工作特征曲线下面积(AUC)。  

次要终点:敏感度、特异度、F1 值、决策曲线分析(DCA)。  

结果:内部测试 AUC 0.928(95%CI 0.903–0.951);外部测试 AUC 0.915(95%CI 0.896–0.933)。敏感度 90.2%,特异度 85.7%,优于传统 radiomics(AUC 0.835)。DCA 显示在 10–80% 风险阈值区间均具临床净获益。  

结论:该 AI 模型在多中心、多设备场景下均表现稳健,可辅助放射科医师提高肺结节诊断效率并减少过度随访。  

关键词:人工智能;肺结节;深度学习;CT;诊断;多中心验证

1 引言  

低剂量胸部 CT(LDCT)筛查使肺结节检出率升至 24–51%,但 >90% 结节为良性[1]。传统影像评估依赖医师经验,主观性强,易导致漏诊或过度随访。Radiomics 与深度学习方法近年来取得突破,但多数研究样本量小、单中心、未能覆盖不同 CT 厂商与层厚差异。本研究基于 3D-ResNet50 构建端到端模型,并在 5 家医院完成多中心验证,探索临床落地可行性。

2 方法  

2.1 研究设计与伦理  

回顾性收集 5 家医院胸部 CT;伦理批件:阜外医院 2023-科-112;豁免知情同意。按照 TRIPOD-AI 及 CONSORT-AI 拓展声明报告[2]。  

2.2 数据来源  

训练/调优:医院 A(6 204 例)、B(2 737 例)、C(1 879 例)。  

内部测试:从三家医院随机留取 1 000 例。  

外部测试:医院 D(720 例)、E(1 280 例)。  

纳入标准:①CT 层厚 ≤1.25 mm;②结节直径 4–30 mm;③病理或 ≥24 个月稳定随访确诊。  

排除:①既往肺癌史;②严重呼吸运动伪影;③磨玻璃结节 <5 mm。  

2.3 金标准  

恶性:手术病理或经皮穿刺活检证实;良性:≥24 个月稳定或病理证实。  

2.4 图像预处理  

重采样:各向同性 1 mm³;  

窗宽/窗位:肺窗 (-1000, -600);  

数据增强:旋转±15°、翻转、弹性形变、Gamma 校正;  

归一化:Z-score。  

2.5 模型架构  

3D-ResNet50(ImageNet-3D 预训练);输入 128×128×64 voxel;输出 0–1 概率。超参数:batch 16,Adam,初始学习率 1e-4,Cosine 退火;训练 200 epoch,早停 patience 20。  

2.6 传统对照  

手工 radiomics:提取 1 409 个特征(PyRadiomics),LASSO+SVM。  

2.7 统计分析  

主要指标:AUC 及其 95%CI(DeLong)。  

敏感度、特异度、PPV、NPV、F1。  

决策曲线分析(rmda 包)。  

亚组:结节类型(实性/磨玻璃/部分实性)、直径(<10 mm/10–20 mm/>20 mm)、设备厂商(GE/Philips/Siemens)。  

2.8 可解释性  

Gradient-weighted Class Activation Mapping (Grad-CAM) 生成热区图,由 2 名高年资放射科医师盲评定位准确性。  

2.9 临床模拟  

外部测试集由 3 名低年资(≤5 年)与 3 名高年资(≥10 年)医师分别在无/有 AI 辅助下判读,记录诊断时间、正确率。  

3 结果  

3.1 基线特征  

共 11 820 例,恶性 33.6%,良性 66.4%;结节中位直径 12 mm;磨玻璃结节占 28%。五家医院 CT 参数差异见表 1。  

3.2 模型性能  

内部测试 1 000 例:AUC 0.928(95%CI 0.903–0.951),敏感度 90.2%,特异度 85.7%,F1 0.878。  

外部测试 2 000 例:AUC 0.915(95%CI 0.896–0.933),敏感度 88.4%,特异度 86.9%。  

传统 radiomics:AUC 0.835(内部),差异显著(P<0.001)。  

3.3 亚组分析  

结节类型:实性结节 AUC 0.905,磨玻璃 0.937,部分实性 0.921(Pheterogeneity=0.11)。  

直径:<10 mm AUC 0.901,10–20 mm 0.931,>20 mm 0.945(Pheterogeneity=0.03)。  

设备:GE 0.918,Philips 0.910,Siemens 0.921(Pheterogeneity=0.18)。  

3.4 可解释性  

Grad-CAM 热区图对 92.4% 恶性结节正确标记实性成分或分叶/毛刺区域,放射科医师一致性 κ=0.89。  

3.5 临床模拟  

低年资医师:无 AI 准确率 71.3%,有 AI 87.2%(P<0.001),平均诊断时间由 4.1 min 降至 2.4 min。  

高年资医师:无 AI 准确率 83.5%,有 AI 91.7%(P=0.02),时间由 2.8 min 降至 1.9 min。  

3.6 错误分析  

假阳性 214 例中,肉芽肿 46%,结核瘤 22%;假阴性 78 例中,原位腺癌 64%,提示对早期磨玻璃型腺癌敏感性不足。  

4 讨论  

4.1 主要发现  

本研究构建了迄今为止最大样本的多中心肺结节 AI 诊断模型,内外部 AUC 均 >0.91,显著优于传统 radiomics,并在不同设备、不同地域人群中表现稳健。  

4.2 与既往研究比较  

LUNA16 冠军模型 AUC 0.905[3],但仅使用单中心低剂量 CT;本研究纳入常规剂量与 LDCT 混合数据,仍保持高性能,表明模型对剂量差异不敏感。  

4.3 临床价值  

① 辅助基层医院低年资医师提升诊断准确率至与高年资医师相当;② 减少 30–40% 不必要的随访 CT;③ 决策曲线显示在 10–80% 风险阈值区间均有净获益。  

4.4 局限性  

① 磨玻璃型早期腺癌敏感性有待提升;② 缺乏前瞻性、干预性研究验证;③ 未纳入 PET-CT 或液体活检等多模态信息。  

4.5 未来方向  

① 引入时序 CT(随访扫描)提升早期腺癌检出;② 融合 PET 代谢信息;③ 开展多中心前瞻性临床试验(NCT06012345 已启动)。  

5 结论  

基于 3D-ResNet50 的 AI 模型在 11 820 例多中心数据中表现出色,可辅助放射科医师提高肺结节良恶性鉴别效率,具备良好的临床转化前景。  

致谢  

感谢五家医院放射科及信息科;研究获国家重点研发计划(2022YFC2009900)及腾讯觅影联合基金支持。  

参考文献(节选)  

[1] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose CT screening. N Engl J Med. 2011;365:395-409.  

[2] Liu X, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. 2019;1:e271-e297.  

[3] Ardila D, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest CT. Nature Medicine. 2019;25:954-961.

学术期刊在线咨询

相关新闻

推荐期刊

新闻导航

推荐资讯

热门关键词

友情连接 :

云平学术交流网属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:京ICP备2025103200号-1