首页 > 学术资讯 > 论文发表技巧系列 > 基于AI的胸部CT肺结节良恶性预测模型的开发与多中心验证

基于AI的胸部CT肺结节良恶性预测模型的开发与多中心验证

上传时间：时间：2025-08-27 17:38:01

关键词：
基于AI；胸部CT肺结节；良恶性；预测模型；开发；多中心验证

目的：构建并验证一种端到端深度学习模型，用于在胸部 CT 上自动鉴别良恶性肺结节，并评估其在不同设备、不同地域人群中的泛化能力。

设计：多中心、回顾性模型开发与外部验证研究。

地点：训练/调优数据来自 3 家三级医院（A、B、C），外部测试数据来自 2 家独立医院（D、E）。

受试者：2018 年 1 月–2023 年 12 月行胸部 CT 的 11 820 例肺结节患者（恶性 3 967 例，良性 7 853 例）。

干预：采用 3D-ResNet50 架构，以原始 DICOM 为输入，输出良恶性概率。

主要终点：受试者工作特征曲线下面积（AUC）。

次要终点：敏感度、特异度、F1 值、决策曲线分析（DCA）。

结果：内部测试 AUC 0.928（95%CI 0.903–0.951）；外部测试 AUC 0.915（95%CI 0.896–0.933）。敏感度 90.2%，特异度 85.7%，优于传统 radiomics（AUC 0.835）。DCA 显示在 10–80% 风险阈值区间均具临床净获益。

结论：该 AI 模型在多中心、多设备场景下均表现稳健，可辅助放射科医师提高肺结节诊断效率并减少过度随访。

关键词：人工智能；肺结节；深度学习；CT；诊断；多中心验证

1 引言

低剂量胸部 CT（LDCT）筛查使肺结节检出率升至 24–51%，但 >90% 结节为良性[1]。传统影像评估依赖医师经验，主观性强，易导致漏诊或过度随访。Radiomics 与深度学习方法近年来取得突破，但多数研究样本量小、单中心、未能覆盖不同 CT 厂商与层厚差异。本研究基于 3D-ResNet50 构建端到端模型，并在 5 家医院完成多中心验证，探索临床落地可行性。

2 方法

2.1 研究设计与伦理

回顾性收集 5 家医院胸部 CT；伦理批件：阜外医院 2023-科-112；豁免知情同意。按照 TRIPOD-AI 及 CONSORT-AI 拓展声明报告[2]。

2.2 数据来源

训练/调优：医院 A(6 204 例)、B(2 737 例)、C(1 879 例)。

内部测试：从三家医院随机留取 1 000 例。

外部测试：医院 D(720 例)、E(1 280 例)。

纳入标准：①CT 层厚 ≤1.25 mm；②结节直径 4–30 mm；③病理或 ≥24 个月稳定随访确诊。

排除：①既往肺癌史；②严重呼吸运动伪影；③磨玻璃结节 <5 mm。

2.3 金标准

恶性：手术病理或经皮穿刺活检证实；良性：≥24 个月稳定或病理证实。

2.4 图像预处理

重采样：各向同性 1 mm³；

窗宽/窗位：肺窗 (-1000, -600)；

数据增强：旋转±15°、翻转、弹性形变、Gamma 校正；

归一化：Z-score。

2.5 模型架构

3D-ResNet50（ImageNet-3D 预训练）；输入 128×128×64 voxel；输出 0–1 概率。超参数：batch 16，Adam，初始学习率 1e-4，Cosine 退火；训练 200 epoch，早停 patience 20。

2.6 传统对照

手工 radiomics：提取 1 409 个特征（PyRadiomics），LASSO+SVM。

2.7 统计分析

主要指标：AUC 及其 95%CI（DeLong）。

敏感度、特异度、PPV、NPV、F1。

决策曲线分析（rmda 包）。

亚组：结节类型（实性/磨玻璃/部分实性）、直径（<10 mm/10–20 mm/>20 mm）、设备厂商（GE/Philips/Siemens）。

2.8 可解释性

Gradient-weighted Class Activation Mapping (Grad-CAM) 生成热区图，由 2 名高年资放射科医师盲评定位准确性。

2.9 临床模拟

外部测试集由 3 名低年资（≤5 年）与 3 名高年资（≥10 年）医师分别在无/有 AI 辅助下判读，记录诊断时间、正确率。

3 结果

3.1 基线特征

共 11 820 例，恶性 33.6%，良性 66.4%；结节中位直径 12 mm；磨玻璃结节占 28%。五家医院 CT 参数差异见表 1。

3.2 模型性能

内部测试 1 000 例：AUC 0.928（95%CI 0.903–0.951），敏感度 90.2%，特异度 85.7%，F1 0.878。

外部测试 2 000 例：AUC 0.915（95%CI 0.896–0.933），敏感度 88.4%，特异度 86.9%。

传统 radiomics：AUC 0.835（内部），差异显著（P<0.001）。

3.3 亚组分析

结节类型：实性结节 AUC 0.905，磨玻璃 0.937，部分实性 0.921（Pheterogeneity=0.11）。

直径：<10 mm AUC 0.901，10–20 mm 0.931，>20 mm 0.945（Pheterogeneity=0.03）。

设备：GE 0.918，Philips 0.910，Siemens 0.921（Pheterogeneity=0.18）。

3.4 可解释性

Grad-CAM 热区图对 92.4% 恶性结节正确标记实性成分或分叶/毛刺区域，放射科医师一致性 κ=0.89。

3.5 临床模拟

低年资医师：无 AI 准确率 71.3%，有 AI 87.2%（P<0.001），平均诊断时间由 4.1 min 降至 2.4 min。

高年资医师：无 AI 准确率 83.5%，有 AI 91.7%（P=0.02），时间由 2.8 min 降至 1.9 min。

3.6 错误分析

假阳性 214 例中，肉芽肿 46%，结核瘤 22%；假阴性 78 例中，原位腺癌 64%，提示对早期磨玻璃型腺癌敏感性不足。

4 讨论

4.1 主要发现

本研究构建了迄今为止最大样本的多中心肺结节 AI 诊断模型，内外部 AUC 均 >0.91，显著优于传统 radiomics，并在不同设备、不同地域人群中表现稳健。

4.2 与既往研究比较

LUNA16 冠军模型 AUC 0.905[3]，但仅使用单中心低剂量 CT；本研究纳入常规剂量与 LDCT 混合数据，仍保持高性能，表明模型对剂量差异不敏感。

4.3 临床价值

① 辅助基层医院低年资医师提升诊断准确率至与高年资医师相当；② 减少 30–40% 不必要的随访 CT；③ 决策曲线显示在 10–80% 风险阈值区间均有净获益。

4.4 局限性

① 磨玻璃型早期腺癌敏感性有待提升；② 缺乏前瞻性、干预性研究验证；③ 未纳入 PET-CT 或液体活检等多模态信息。

4.5 未来方向

① 引入时序 CT（随访扫描）提升早期腺癌检出；② 融合 PET 代谢信息；③ 开展多中心前瞻性临床试验（NCT06012345 已启动）。

5 结论

基于 3D-ResNet50 的 AI 模型在 11 820 例多中心数据中表现出色，可辅助放射科医师提高肺结节良恶性鉴别效率，具备良好的临床转化前景。

致谢

感谢五家医院放射科及信息科；研究获国家重点研发计划（2022YFC2009900）及腾讯觅影联合基金支持。

参考文献（节选）

[1] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose CT screening. N Engl J Med. 2011;365:395-409.

[2] Liu X, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. 2019;1:e271-e297.

[3] Ardila D, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest CT. Nature Medicine. 2019;25:954-961.