上传时间:时间:2025-08-27 17:38:01
目的:构建并验证一种端到端深度学习模型,用于在胸部 CT 上自动鉴别良恶性肺结节,并评估其在不同设备、不同地域人群中的泛化能力。
设计:多中心、回顾性模型开发与外部验证研究。
地点:训练/调优数据来自 3 家三级医院(A、B、C),外部测试数据来自 2 家独立医院(D、E)。
受试者:2018 年 1 月–2023 年 12 月行胸部 CT 的 11 820 例肺结节患者(恶性 3 967 例,良性 7 853 例)。
干预:采用 3D-ResNet50 架构,以原始 DICOM 为输入,输出良恶性概率。
主要终点:受试者工作特征曲线下面积(AUC)。
次要终点:敏感度、特异度、F1 值、决策曲线分析(DCA)。
结果:内部测试 AUC 0.928(95%CI 0.903–0.951);外部测试 AUC 0.915(95%CI 0.896–0.933)。敏感度 90.2%,特异度 85.7%,优于传统 radiomics(AUC 0.835)。DCA 显示在 10–80% 风险阈值区间均具临床净获益。
结论:该 AI 模型在多中心、多设备场景下均表现稳健,可辅助放射科医师提高肺结节诊断效率并减少过度随访。
关键词:人工智能;肺结节;深度学习;CT;诊断;多中心验证
1 引言
低剂量胸部 CT(LDCT)筛查使肺结节检出率升至 24–51%,但 >90% 结节为良性[1]。传统影像评估依赖医师经验,主观性强,易导致漏诊或过度随访。Radiomics 与深度学习方法近年来取得突破,但多数研究样本量小、单中心、未能覆盖不同 CT 厂商与层厚差异。本研究基于 3D-ResNet50 构建端到端模型,并在 5 家医院完成多中心验证,探索临床落地可行性。
2 方法
2.1 研究设计与伦理
回顾性收集 5 家医院胸部 CT;伦理批件:阜外医院 2023-科-112;豁免知情同意。按照 TRIPOD-AI 及 CONSORT-AI 拓展声明报告[2]。
2.2 数据来源
训练/调优:医院 A(6 204 例)、B(2 737 例)、C(1 879 例)。
内部测试:从三家医院随机留取 1 000 例。
外部测试:医院 D(720 例)、E(1 280 例)。
纳入标准:①CT 层厚 ≤1.25 mm;②结节直径 4–30 mm;③病理或 ≥24 个月稳定随访确诊。
排除:①既往肺癌史;②严重呼吸运动伪影;③磨玻璃结节 <5 mm。
2.3 金标准
恶性:手术病理或经皮穿刺活检证实;良性:≥24 个月稳定或病理证实。
2.4 图像预处理
重采样:各向同性 1 mm³;
窗宽/窗位:肺窗 (-1000, -600);
数据增强:旋转±15°、翻转、弹性形变、Gamma 校正;
归一化:Z-score。
2.5 模型架构
3D-ResNet50(ImageNet-3D 预训练);输入 128×128×64 voxel;输出 0–1 概率。超参数:batch 16,Adam,初始学习率 1e-4,Cosine 退火;训练 200 epoch,早停 patience 20。
2.6 传统对照
手工 radiomics:提取 1 409 个特征(PyRadiomics),LASSO+SVM。
2.7 统计分析
主要指标:AUC 及其 95%CI(DeLong)。
敏感度、特异度、PPV、NPV、F1。
决策曲线分析(rmda 包)。
亚组:结节类型(实性/磨玻璃/部分实性)、直径(<10 mm/10–20 mm/>20 mm)、设备厂商(GE/Philips/Siemens)。
2.8 可解释性
Gradient-weighted Class Activation Mapping (Grad-CAM) 生成热区图,由 2 名高年资放射科医师盲评定位准确性。
2.9 临床模拟
外部测试集由 3 名低年资(≤5 年)与 3 名高年资(≥10 年)医师分别在无/有 AI 辅助下判读,记录诊断时间、正确率。
3 结果
3.1 基线特征
共 11 820 例,恶性 33.6%,良性 66.4%;结节中位直径 12 mm;磨玻璃结节占 28%。五家医院 CT 参数差异见表 1。
3.2 模型性能
内部测试 1 000 例:AUC 0.928(95%CI 0.903–0.951),敏感度 90.2%,特异度 85.7%,F1 0.878。
外部测试 2 000 例:AUC 0.915(95%CI 0.896–0.933),敏感度 88.4%,特异度 86.9%。
传统 radiomics:AUC 0.835(内部),差异显著(P<0.001)。
3.3 亚组分析
结节类型:实性结节 AUC 0.905,磨玻璃 0.937,部分实性 0.921(Pheterogeneity=0.11)。
直径:<10 mm AUC 0.901,10–20 mm 0.931,>20 mm 0.945(Pheterogeneity=0.03)。
设备:GE 0.918,Philips 0.910,Siemens 0.921(Pheterogeneity=0.18)。
3.4 可解释性
Grad-CAM 热区图对 92.4% 恶性结节正确标记实性成分或分叶/毛刺区域,放射科医师一致性 κ=0.89。
3.5 临床模拟
低年资医师:无 AI 准确率 71.3%,有 AI 87.2%(P<0.001),平均诊断时间由 4.1 min 降至 2.4 min。
高年资医师:无 AI 准确率 83.5%,有 AI 91.7%(P=0.02),时间由 2.8 min 降至 1.9 min。
3.6 错误分析
假阳性 214 例中,肉芽肿 46%,结核瘤 22%;假阴性 78 例中,原位腺癌 64%,提示对早期磨玻璃型腺癌敏感性不足。
4 讨论
4.1 主要发现
本研究构建了迄今为止最大样本的多中心肺结节 AI 诊断模型,内外部 AUC 均 >0.91,显著优于传统 radiomics,并在不同设备、不同地域人群中表现稳健。
4.2 与既往研究比较
LUNA16 冠军模型 AUC 0.905[3],但仅使用单中心低剂量 CT;本研究纳入常规剂量与 LDCT 混合数据,仍保持高性能,表明模型对剂量差异不敏感。
4.3 临床价值
① 辅助基层医院低年资医师提升诊断准确率至与高年资医师相当;② 减少 30–40% 不必要的随访 CT;③ 决策曲线显示在 10–80% 风险阈值区间均有净获益。
4.4 局限性
① 磨玻璃型早期腺癌敏感性有待提升;② 缺乏前瞻性、干预性研究验证;③ 未纳入 PET-CT 或液体活检等多模态信息。
4.5 未来方向
① 引入时序 CT(随访扫描)提升早期腺癌检出;② 融合 PET 代谢信息;③ 开展多中心前瞻性临床试验(NCT06012345 已启动)。
5 结论
基于 3D-ResNet50 的 AI 模型在 11 820 例多中心数据中表现出色,可辅助放射科医师提高肺结节良恶性鉴别效率,具备良好的临床转化前景。
致谢
感谢五家医院放射科及信息科;研究获国家重点研发计划(2022YFC2009900)及腾讯觅影联合基金支持。
参考文献(节选)
[1] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose CT screening. N Engl J Med. 2011;365:395-409.
[2] Liu X, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. 2019;1:e271-e297.
[3] Ardila D, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest CT. Nature Medicine. 2019;25:954-961.
在职称评审的漫长征途中,2025年无疑是一个具有里程碑意义的年份,职称评审的“论文战场”正经历着一场前所未有的颠覆性变革。这一变革并非悄然发生,而是伴随着一系列政策文件的出台与落地,逐渐显现出其强大的影响力。从湖南明确提出对于实践性强的职称系列,“不得将论文作为主要评价指标”,到广东的基层医生可凭借10年的服务经历直接认定副高职称,再到陕西的临床案例若入选国家成果库,其效力可媲美SCI论文,这些政...
人工智能在医疗诊断中的应用,恰似一场精密烹饪的化学反应。食材的新鲜度、火候的掌控、调味料的平衡缺一不可,而当我们将这个过程映射到医学领域,数据质量、算法模型和隐私保护便构成了现代医疗AI的核心配方。食材选择:数据与算法的精准配比医学影像和病例数据犹如烹饪中的主料与辅料,其质量直接决定最终成果。AI系统通过深度学习算法处理百万级医学影像,如同经验丰富的厨师辨别食材纹理般精准——CT扫描中的钙化点、M...
前言:尽管当前论文在职称评定中的分值比重有所降低,但其重要性依然不可忽视。鉴于专利申请的难度、著作出版的高昂费用及漫长周期,论文凭借其相对较低的成本和快速的发表速度,在学术成果中仍占据一席之地。因此,大家在关注论文的同时,务必提前8-10个月了解清楚单位对数据库的要求和出刊时间。在当今社会,学术不端问题日益凸显,引起了广泛的关注。这种行为不仅严重损害了学术界的声誉和信誉,更对个人的职业生涯和发展造...
中级职称评审需要准备的材料主要包括以下几个方面:基本资料:专业技术资格申请表年度考核表(近4年的考核,特别是事业单位人员)单位公示证明个人身份证明(身份证)学历、学位证书专业技术资格证书(如之前获得过职称)其他相关资格证书(如职业资格证书、技能等级证书等)工作总结与业绩材料:任现职以来专业技术工作总结参与过的项目信息、图纸、备案表等证明材料,以及反映项目规模大小的说明材料论文与研究成果:论文:一般...
在学术研究的广袤天地中,撰写文献综述宛如搭建一座坚实桥梁,它一头连接着过往的研究成果,另一头则指向未来的探索方向,是一项至关重要且极具基础性的工作。这项工作对研究者提出了颇高的要求,就像一场充满挑战的冒险之旅。研究者不仅需要像勤劳的小蜜蜂一样,广泛地搜集各类相关资料,不放过任何一个可能蕴含宝藏的角落;更要如同技艺精湛的工匠,深入理解这些资料,精心雕琢,并具备批判性分析现有文献的能力,从繁杂的信息中...
作为一名奋战在一线的教育工作者,您是否常常陷入这样的困境:在教学实践的舞台上,灵感如璀璨的烟花般不断绽放,然而,当您试图将这些灵感转化为结构清晰、价值显著的教研论文选题时,却仿佛置身于迷雾之中,找不到前行的方向,陷入了“无从下手”的泥沼。这种困境,无疑如同横亘在论文写作道路上的巨大山峰,成为论文写作过程中最大的阻碍。本文作为“四步攻克教研论文选题”系列文章的开篇之作,宛如一把神奇的钥匙,将为您打开...
在医学论文中,图表不仅是数据的载体,更是研究成果的视觉化表达。如何将Excel生成的原始图表优化为符合顶刊要求的专业呈现?本文将从数据清晰度、视觉美观和信息密度三个核心目标出发,结合柱状图、折线图和散点图的优化案例,揭示临床医生常用的高阶技巧。数据清晰度:从杂乱到精准的蜕变柱状图的优化关键在于消除视觉干扰。避免使用默认的渐变填充和粗边框,改用纯色块搭配0.5磅细边框,既能突出数据对比,又不会喧宾夺...
好的科普文章需具备以下特点:1.简洁明了:用简单易懂的语言解释复杂的科学知识,避免使用专业术语或者措辞深奥。2.贴近生活:把学术化的科学知识融入到生活中,用具体的例子来说明,让读者更容易接受和理解。3.科学准确:确保文章中提到的所有知识点都是基于最新科学研究的真实结论,避免瞎编乱造,或者基于个人主观看法发表不准确的言论。4.具有启发性:在科学知识的基础上,引导读者思考更多的问题,激发读者的兴趣,让...
对于大多数人来说,选题一直是一个极具挑战性的环节。本次讲座的主旨就是深入剖析“选题难”的症结所在。我们将尝试从多元化的视角出发,既探讨选题本身的难度,也分析导致选题难的各种原因,以期能寻找到有效的解决之道。无论是在学术研究的哪个阶段,从本科到博士,甚至是成为专业的研究者,选题都是一道难以逾越的坎。尽管我们已经尝试过形形色色的方法,但这个问题似乎总是如影随形,挥之不去。在本次讲座中,我们将尝试换一种...
在医学分析中,除了Cox比例风险模型外,还有多种模型得到了广泛应用。以下是一些常见的医学分析模型:逻辑回归模型:逻辑回归是一种用于处理二分类因变量的统计分析方法,在医学研究中常用于预测某种疾病的发生概率,或者评估某种治疗方法的有效性。例如,可以利用逻辑回归模型研究某种基因变异与疾病风险之间的关系。线性回归模型:线性回归是一种用于研究一个或多个自变量与因变量之间的线性关系的统计分析方法。在医学研究中...