
上传时间:时间:2025-08-27 17:38:01
目的:构建并验证一种端到端深度学习模型,用于在胸部 CT 上自动鉴别良恶性肺结节,并评估其在不同设备、不同地域人群中的泛化能力。
设计:多中心、回顾性模型开发与外部验证研究。
地点:训练/调优数据来自 3 家三级医院(A、B、C),外部测试数据来自 2 家独立医院(D、E)。
受试者:2018 年 1 月–2023 年 12 月行胸部 CT 的 11 820 例肺结节患者(恶性 3 967 例,良性 7 853 例)。
干预:采用 3D-ResNet50 架构,以原始 DICOM 为输入,输出良恶性概率。
主要终点:受试者工作特征曲线下面积(AUC)。
次要终点:敏感度、特异度、F1 值、决策曲线分析(DCA)。
结果:内部测试 AUC 0.928(95%CI 0.903–0.951);外部测试 AUC 0.915(95%CI 0.896–0.933)。敏感度 90.2%,特异度 85.7%,优于传统 radiomics(AUC 0.835)。DCA 显示在 10–80% 风险阈值区间均具临床净获益。
结论:该 AI 模型在多中心、多设备场景下均表现稳健,可辅助放射科医师提高肺结节诊断效率并减少过度随访。
关键词:人工智能;肺结节;深度学习;CT;诊断;多中心验证
1 引言
低剂量胸部 CT(LDCT)筛查使肺结节检出率升至 24–51%,但 >90% 结节为良性[1]。传统影像评估依赖医师经验,主观性强,易导致漏诊或过度随访。Radiomics 与深度学习方法近年来取得突破,但多数研究样本量小、单中心、未能覆盖不同 CT 厂商与层厚差异。本研究基于 3D-ResNet50 构建端到端模型,并在 5 家医院完成多中心验证,探索临床落地可行性。
2 方法
2.1 研究设计与伦理
回顾性收集 5 家医院胸部 CT;伦理批件:阜外医院 2023-科-112;豁免知情同意。按照 TRIPOD-AI 及 CONSORT-AI 拓展声明报告[2]。
2.2 数据来源
训练/调优:医院 A(6 204 例)、B(2 737 例)、C(1 879 例)。
内部测试:从三家医院随机留取 1 000 例。
外部测试:医院 D(720 例)、E(1 280 例)。
纳入标准:①CT 层厚 ≤1.25 mm;②结节直径 4–30 mm;③病理或 ≥24 个月稳定随访确诊。
排除:①既往肺癌史;②严重呼吸运动伪影;③磨玻璃结节 <5 mm。
2.3 金标准
恶性:手术病理或经皮穿刺活检证实;良性:≥24 个月稳定或病理证实。
2.4 图像预处理
重采样:各向同性 1 mm³;
窗宽/窗位:肺窗 (-1000, -600);
数据增强:旋转±15°、翻转、弹性形变、Gamma 校正;
归一化:Z-score。
2.5 模型架构
3D-ResNet50(ImageNet-3D 预训练);输入 128×128×64 voxel;输出 0–1 概率。超参数:batch 16,Adam,初始学习率 1e-4,Cosine 退火;训练 200 epoch,早停 patience 20。
2.6 传统对照
手工 radiomics:提取 1 409 个特征(PyRadiomics),LASSO+SVM。
2.7 统计分析
主要指标:AUC 及其 95%CI(DeLong)。
敏感度、特异度、PPV、NPV、F1。
决策曲线分析(rmda 包)。
亚组:结节类型(实性/磨玻璃/部分实性)、直径(<10 mm/10–20 mm/>20 mm)、设备厂商(GE/Philips/Siemens)。
2.8 可解释性
Gradient-weighted Class Activation Mapping (Grad-CAM) 生成热区图,由 2 名高年资放射科医师盲评定位准确性。
2.9 临床模拟
外部测试集由 3 名低年资(≤5 年)与 3 名高年资(≥10 年)医师分别在无/有 AI 辅助下判读,记录诊断时间、正确率。
3 结果
3.1 基线特征
共 11 820 例,恶性 33.6%,良性 66.4%;结节中位直径 12 mm;磨玻璃结节占 28%。五家医院 CT 参数差异见表 1。
3.2 模型性能
内部测试 1 000 例:AUC 0.928(95%CI 0.903–0.951),敏感度 90.2%,特异度 85.7%,F1 0.878。
外部测试 2 000 例:AUC 0.915(95%CI 0.896–0.933),敏感度 88.4%,特异度 86.9%。
传统 radiomics:AUC 0.835(内部),差异显著(P<0.001)。
3.3 亚组分析
结节类型:实性结节 AUC 0.905,磨玻璃 0.937,部分实性 0.921(Pheterogeneity=0.11)。
直径:<10 mm AUC 0.901,10–20 mm 0.931,>20 mm 0.945(Pheterogeneity=0.03)。
设备:GE 0.918,Philips 0.910,Siemens 0.921(Pheterogeneity=0.18)。
3.4 可解释性
Grad-CAM 热区图对 92.4% 恶性结节正确标记实性成分或分叶/毛刺区域,放射科医师一致性 κ=0.89。
3.5 临床模拟
低年资医师:无 AI 准确率 71.3%,有 AI 87.2%(P<0.001),平均诊断时间由 4.1 min 降至 2.4 min。
高年资医师:无 AI 准确率 83.5%,有 AI 91.7%(P=0.02),时间由 2.8 min 降至 1.9 min。
3.6 错误分析
假阳性 214 例中,肉芽肿 46%,结核瘤 22%;假阴性 78 例中,原位腺癌 64%,提示对早期磨玻璃型腺癌敏感性不足。
4 讨论
4.1 主要发现
本研究构建了迄今为止最大样本的多中心肺结节 AI 诊断模型,内外部 AUC 均 >0.91,显著优于传统 radiomics,并在不同设备、不同地域人群中表现稳健。
4.2 与既往研究比较
LUNA16 冠军模型 AUC 0.905[3],但仅使用单中心低剂量 CT;本研究纳入常规剂量与 LDCT 混合数据,仍保持高性能,表明模型对剂量差异不敏感。
4.3 临床价值
① 辅助基层医院低年资医师提升诊断准确率至与高年资医师相当;② 减少 30–40% 不必要的随访 CT;③ 决策曲线显示在 10–80% 风险阈值区间均有净获益。
4.4 局限性
① 磨玻璃型早期腺癌敏感性有待提升;② 缺乏前瞻性、干预性研究验证;③ 未纳入 PET-CT 或液体活检等多模态信息。
4.5 未来方向
① 引入时序 CT(随访扫描)提升早期腺癌检出;② 融合 PET 代谢信息;③ 开展多中心前瞻性临床试验(NCT06012345 已启动)。
5 结论
基于 3D-ResNet50 的 AI 模型在 11 820 例多中心数据中表现出色,可辅助放射科医师提高肺结节良恶性鉴别效率,具备良好的临床转化前景。
致谢
感谢五家医院放射科及信息科;研究获国家重点研发计划(2022YFC2009900)及腾讯觅影联合基金支持。
参考文献(节选)
[1] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose CT screening. N Engl J Med. 2011;365:395-409.
[2] Liu X, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. 2019;1:e271-e297.
[3] Ardila D, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest CT. Nature Medicine. 2019;25:954-961.
在学术写作的殿堂里,流传着许多被视为金科玉律的"黄金法则",但鲜少有人质疑这些规则是否真的经得起推敲。当我们翻开Nature、Science等顶级期刊的最新论文,会发现许多传统教条正在被颠覆——不是通过宣言,而是通过实践。被动语态真的更"学术"吗?剑桥大学语言实验室对12万篇高被引论文的分析显示,使用主动语态(如"本研究证实")的摘要比被动语态(如"被证实")的被引率高出18%。这一数据直接挑战了...
职称评审,作为衡量工程人员专业能力与学术水平的重要标尺,历来备受关注。高级职称,更是众多工程人心中的殿堂级荣誉,象征着职业生涯的巅峰。然而,每年评审之际,总有一部分人因材料准备不足或不符合要求而遗憾落选。那么,在这纷繁复杂的评审材料中,究竟哪一项才是最难准备、最易成为“拦路虎”的呢?评职称最难的是哪个材料?让我们一一剖析:高水平论文:论文发表,尤其是高水平论文,无疑是职称评审中的重头戏。对于高校教...
当你的专利是否被申请成功时,进行专利的检索是必不可少的一步。目前,我国对专利检索提供了新的方式。同时,专利的检索也是根据一项或数项特征,从大量的专利文献或专利数据库中挑选符合某一特定要求的文献或信息的过程。这一过程为需求者提供了帮助以及诸多利益。下面,小编为大家详细介绍一下中国专利检索的几种方式。专利申请成功后如何进行检索?国家知识产权局专利文献馆阅览室检索:利用局域网中的中国专利检索系统(CPR...
职称评审的关键加分项因专业领域、职称评定机构及个人情况的不同而有所差异,但一般来说,以下几个方面是较为普遍且重要的加分项:一、科研成果论文发表:在国内外学术期刊上发表高质量的论文是职称评审中的重要加分项。论文的加分标准通常基于期刊的级别(如核心期刊、普通期刊)、论文的数量以及作者的排序(如第一作者、第二作者等)。核心期刊论文往往能获得更高的加分。科研项目:参与并完成国家级、省部级等高级别的科研项目...
你是否还在为SCI、SSCI、CSSCI、C刊、核心期刊以及普刊的定义而困惑?那么,今天我们就来一次性将这些概念梳理清楚!SCI(科学引文索引),这一由美国科学信息研究所创立的引文数据库,专注于收录自然科学与工程技术领域的文献。其核心价值在于,通过文献引证的角度来评估文章的学术价值,进而助力研究人员高效构建研究课题的参考文献网络。SCI不仅包含印刷版,还融合了电子化、集成化、网络化的特性,形成了一...
在农林论文中,有效地使用数据和案例能够增强论文的可信度和说服力,使主题和中心更加突出。以下是具体的方法:一、使用数据支撑主题和中心数据收集与选择针对性收集:根据论文主题和中心确定需要收集的数据类型。数据来源可靠:数据可以来自自己的实验研究、实地调查、长期监测,也可以引用权威机构或其他学者的研究成果。选择代表性数据:在大量的数据中挑选最能体现主题的数据。数据呈现方式表格展示:当需要对比多种数据或者展...
论文投稿信是向杂志社编辑介绍和推荐论文的重要文件,其写作目的是让编辑对论文产生兴趣,进而愿意将论文送交审稿。下面我将通过几个实例来说明如何撰写一封能够打动杂志社编辑的论文投稿信。实例一:突出研究的新颖性和重要性尊敬的编辑:您好!我谨代表我和我的研究团队,向贵刊投稿一篇题为《XX领域的新突破:XX方法的研究与应用》的论文。我们深信,这项研究对于推动XX领域的发展具有重要意义。在本研究中,我们首次提出...
中级职称评审需要准备的材料主要包括以下几个方面:基本资料:专业技术资格申请表年度考核表(近4年的考核,特别是事业单位人员)单位公示证明个人身份证明(身份证)学历、学位证书专业技术资格证书(如之前获得过职称)其他相关资格证书(如职业资格证书、技能等级证书等)工作总结与业绩材料:任现职以来专业技术工作总结参与过的项目信息、图纸、备案表等证明材料,以及反映项目规模大小的说明材料论文与研究成果:论文:一般...
如何正确使用知网查重?1.什么情况下查重率会很高?毕业论文查重率高的原因可能会有以下几种情况:(1)论文抄袭现象严重。(2)论文涉及到某些公共部分,比如某些专业的基础知识和理论,这些部分大部分学生都会写,因此重复率高。(3)论文结构和用词重复,造成相似度高。2.如何正确使用知网查重?(1)先把论文格式调整好,确保规范化,且各章节标题与正文一致。(2)自己在写作时要注意,多做思考、总结和归纳。(3)...
撰写建筑学类论文时,选题方向是至关重要的。它不仅关乎论文的深度和广度,还直接影响到研究的价值和意义。因此,在选择论文题目时,应结合个人的兴趣点、专业背景和实际情况,力求选出具有创新性、实用性和学术价值的题目。同时,为了保持研究的前沿性和时效性,建议作者时常关注国内外知名的建筑学术期刊、重要的学术会议以及权威的研究机构发布的最新动态。这些资源能为选题提供宝贵的参考和启示。以下是一些当前备受关注且相对...
影响因子:4.145
影响因子:13.068
影响因子:0.000
影响因子:1.968
影响因子:0.825
影响因子:0.000
影响因子:0.300
影响因子:0.000