上传时间:时间:2025-08-27 17:38:01
目的:构建并验证一种端到端深度学习模型,用于在胸部 CT 上自动鉴别良恶性肺结节,并评估其在不同设备、不同地域人群中的泛化能力。
设计:多中心、回顾性模型开发与外部验证研究。
地点:训练/调优数据来自 3 家三级医院(A、B、C),外部测试数据来自 2 家独立医院(D、E)。
受试者:2018 年 1 月–2023 年 12 月行胸部 CT 的 11 820 例肺结节患者(恶性 3 967 例,良性 7 853 例)。
干预:采用 3D-ResNet50 架构,以原始 DICOM 为输入,输出良恶性概率。
主要终点:受试者工作特征曲线下面积(AUC)。
次要终点:敏感度、特异度、F1 值、决策曲线分析(DCA)。
结果:内部测试 AUC 0.928(95%CI 0.903–0.951);外部测试 AUC 0.915(95%CI 0.896–0.933)。敏感度 90.2%,特异度 85.7%,优于传统 radiomics(AUC 0.835)。DCA 显示在 10–80% 风险阈值区间均具临床净获益。
结论:该 AI 模型在多中心、多设备场景下均表现稳健,可辅助放射科医师提高肺结节诊断效率并减少过度随访。
关键词:人工智能;肺结节;深度学习;CT;诊断;多中心验证
1 引言
低剂量胸部 CT(LDCT)筛查使肺结节检出率升至 24–51%,但 >90% 结节为良性[1]。传统影像评估依赖医师经验,主观性强,易导致漏诊或过度随访。Radiomics 与深度学习方法近年来取得突破,但多数研究样本量小、单中心、未能覆盖不同 CT 厂商与层厚差异。本研究基于 3D-ResNet50 构建端到端模型,并在 5 家医院完成多中心验证,探索临床落地可行性。
2 方法
2.1 研究设计与伦理
回顾性收集 5 家医院胸部 CT;伦理批件:阜外医院 2023-科-112;豁免知情同意。按照 TRIPOD-AI 及 CONSORT-AI 拓展声明报告[2]。
2.2 数据来源
训练/调优:医院 A(6 204 例)、B(2 737 例)、C(1 879 例)。
内部测试:从三家医院随机留取 1 000 例。
外部测试:医院 D(720 例)、E(1 280 例)。
纳入标准:①CT 层厚 ≤1.25 mm;②结节直径 4–30 mm;③病理或 ≥24 个月稳定随访确诊。
排除:①既往肺癌史;②严重呼吸运动伪影;③磨玻璃结节 <5 mm。
2.3 金标准
恶性:手术病理或经皮穿刺活检证实;良性:≥24 个月稳定或病理证实。
2.4 图像预处理
重采样:各向同性 1 mm³;
窗宽/窗位:肺窗 (-1000, -600);
数据增强:旋转±15°、翻转、弹性形变、Gamma 校正;
归一化:Z-score。
2.5 模型架构
3D-ResNet50(ImageNet-3D 预训练);输入 128×128×64 voxel;输出 0–1 概率。超参数:batch 16,Adam,初始学习率 1e-4,Cosine 退火;训练 200 epoch,早停 patience 20。
2.6 传统对照
手工 radiomics:提取 1 409 个特征(PyRadiomics),LASSO+SVM。
2.7 统计分析
主要指标:AUC 及其 95%CI(DeLong)。
敏感度、特异度、PPV、NPV、F1。
决策曲线分析(rmda 包)。
亚组:结节类型(实性/磨玻璃/部分实性)、直径(<10 mm/10–20 mm/>20 mm)、设备厂商(GE/Philips/Siemens)。
2.8 可解释性
Gradient-weighted Class Activation Mapping (Grad-CAM) 生成热区图,由 2 名高年资放射科医师盲评定位准确性。
2.9 临床模拟
外部测试集由 3 名低年资(≤5 年)与 3 名高年资(≥10 年)医师分别在无/有 AI 辅助下判读,记录诊断时间、正确率。
3 结果
3.1 基线特征
共 11 820 例,恶性 33.6%,良性 66.4%;结节中位直径 12 mm;磨玻璃结节占 28%。五家医院 CT 参数差异见表 1。
3.2 模型性能
内部测试 1 000 例:AUC 0.928(95%CI 0.903–0.951),敏感度 90.2%,特异度 85.7%,F1 0.878。
外部测试 2 000 例:AUC 0.915(95%CI 0.896–0.933),敏感度 88.4%,特异度 86.9%。
传统 radiomics:AUC 0.835(内部),差异显著(P<0.001)。
3.3 亚组分析
结节类型:实性结节 AUC 0.905,磨玻璃 0.937,部分实性 0.921(Pheterogeneity=0.11)。
直径:<10 mm AUC 0.901,10–20 mm 0.931,>20 mm 0.945(Pheterogeneity=0.03)。
设备:GE 0.918,Philips 0.910,Siemens 0.921(Pheterogeneity=0.18)。
3.4 可解释性
Grad-CAM 热区图对 92.4% 恶性结节正确标记实性成分或分叶/毛刺区域,放射科医师一致性 κ=0.89。
3.5 临床模拟
低年资医师:无 AI 准确率 71.3%,有 AI 87.2%(P<0.001),平均诊断时间由 4.1 min 降至 2.4 min。
高年资医师:无 AI 准确率 83.5%,有 AI 91.7%(P=0.02),时间由 2.8 min 降至 1.9 min。
3.6 错误分析
假阳性 214 例中,肉芽肿 46%,结核瘤 22%;假阴性 78 例中,原位腺癌 64%,提示对早期磨玻璃型腺癌敏感性不足。
4 讨论
4.1 主要发现
本研究构建了迄今为止最大样本的多中心肺结节 AI 诊断模型,内外部 AUC 均 >0.91,显著优于传统 radiomics,并在不同设备、不同地域人群中表现稳健。
4.2 与既往研究比较
LUNA16 冠军模型 AUC 0.905[3],但仅使用单中心低剂量 CT;本研究纳入常规剂量与 LDCT 混合数据,仍保持高性能,表明模型对剂量差异不敏感。
4.3 临床价值
① 辅助基层医院低年资医师提升诊断准确率至与高年资医师相当;② 减少 30–40% 不必要的随访 CT;③ 决策曲线显示在 10–80% 风险阈值区间均有净获益。
4.4 局限性
① 磨玻璃型早期腺癌敏感性有待提升;② 缺乏前瞻性、干预性研究验证;③ 未纳入 PET-CT 或液体活检等多模态信息。
4.5 未来方向
① 引入时序 CT(随访扫描)提升早期腺癌检出;② 融合 PET 代谢信息;③ 开展多中心前瞻性临床试验(NCT06012345 已启动)。
5 结论
基于 3D-ResNet50 的 AI 模型在 11 820 例多中心数据中表现出色,可辅助放射科医师提高肺结节良恶性鉴别效率,具备良好的临床转化前景。
致谢
感谢五家医院放射科及信息科;研究获国家重点研发计划(2022YFC2009900)及腾讯觅影联合基金支持。
参考文献(节选)
[1] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose CT screening. N Engl J Med. 2011;365:395-409.
[2] Liu X, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. 2019;1:e271-e297.
[3] Ardila D, et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest CT. Nature Medicine. 2019;25:954-961.
1文章质量问题。一篇高质量的论文是每个杂志社都愿意接收的,因为发表论文的质量是提升论文收录的一个主要条件。想要提高论文的质量就要做到观点正确、文字通畅、逻辑严密、结构合理、结论有创新等等。如果质量不行,就连初审也是过不去的。问题不大的编辑可能会退稿修改,也有可能会退稿再修改再审稿,这样是非常浪费时间的,严重的话杂志社也会直接拒稿。这样就会很耽误论文的发表,所以作者一开始就要注重论文的质量问题,写出...
医学论文投稿是医学研究流程中不可或缺的一环,其成功发表不仅能够提升医生的职业声望、扩大其专业影响力,还能够增强其实践能力,进而有力推动整个医学领域的进步与发展。以下便是针对医学论文投稿期刊的一些关键要求和投稿技巧进行的梳理与分享。首先,确保目标期刊的正规性是投稿的基础要求。投稿的期刊必须具备正规的刊号,以避免陷入非法期刊的陷阱。为了验证期刊的合法性,作者可以在国家新闻出版署或相关官方网站的期刊查询...
评职称、结项目、业绩补充等活动中,对于论文发表的时间要求确实非常关键。下面我将详细解释如何区分期刊的刊期、出刊时间、见刊时间以及上网收录时间。期刊刊期:刊期指的是期刊的出版周期,如周刊、旬刊、月刊等。它决定了期刊的出版频率。确定方法:通常可以在期刊的官方网站、封面或版权页上找到刊期的信息。出刊时间:出刊时间是指期刊具体印刷完成并正式发行的时间。确定方法:出刊时间通常由杂志社根据排版和印刷进度来确定...
在科技领域,发表高质量的论文是每个科研人员的重要任务之一。科技论文不仅记录了研究的成果,还是学术交流的重要媒介。因此,掌握科技论文的撰写技巧至关重要。选题是科技论文写作的第一步。一个好的选题应当具有创新性和实用性,能够在现有研究的基础上提供新的见解或解决实际问题。选题的过程中,需要对现有的文献进行充分的调研,确保你的研究填补了某一领域的空白或对已有的理论进行了有效的补充。一旦确定了选题,接下来的步...
在学术出版过程中,审稿是确保研究质量、推动学术进步的重要环节。然而,有时候审稿人提出的意见可能让我们感到难以接受。面对这种情况,我们应如何应对呢?审稿人提出了一些无关的问题:在遇到这类审稿意见时,相信每位作者都会感到无语。明明文章已经对审稿人所提出的问题有所阐述,但外审专家却认为文章并没有明确指出或说明。这往往是因为外审专家为了快速完成审稿任务,粗糙简略地完成审稿意见的撰写,尤其是在没有详读文章的...
本文聚焦论文选题方法,剖析传统“先查文献后选题”模式存在的思维同质化、对创新价值误判、启动成本高及盲目崇拜学术空白等困境。提出“先定题,再查文献”的逆向操作策略,阐述其核心步骤,包括基于内在储备快速命题、带着命题靶向检索以及命题迭代优化与最终确立。揭示该策略通过从“空白思维”转向“对话思维”保障创新性,为学术研究提供新思路,助力研究者开启高效且具创新潜力的学术旅程。一、引言在学术研究的征程中,论文...
以教育部重点课题和国家一般课题哪个好?1.什么是教育部重点课题和国家一般课题?教育部重点课题是指教育部着重支持的、具有学科或者教育行业的重大、前瞻性问题的研究课题,通常意味着课题的研究经费、研究条件和研究期限等都比一般课题优越。国家一般课题是指立项者在经费、条件等方面没有优越性的科研项目,一般基金属于该类项目之中。2.教育部重点课题的优势2.1经费的优越性教育部重点课题通常需要的经费比国家一般课题...
课题研究在一线教师的专业成长中占据关键地位,然而“问题即课题”的认知误区普遍存在,导致研究混乱、成果空洞。本文深入剖析问题与课题的核心区别与深层关联,阐述识别真问题的三步策略,并介绍将教学问题转化为规范研究课题的三步方法,旨在为一线教师提供从教学问题到研究课题的完整转化指引,助力其实现专业成长。一、引言在教育教学领域,“课题”对于一线教师而言,是一个既熟悉又陌生的概念。熟悉在于,课题研究贯穿于职称...
在当代学术交流中,Z世代大学生正以独特的视觉语言重构传统的知识传递方式。当人工智能技术以10倍效率生成课件,年轻学者们也在用表情包为艰涩的学术概念注入幽默基因。这种看似叛逆的表达革新,实则暗合了AI教育技术"以学习者为中心"的本质逻辑——就像个性化学习系统会根据用户数据推荐适配资源,优秀的论文表情包同样能精准戳中同龄人的认知痛点。当学术遇上斗图:视觉符号的认知革命教育神经科学研究显示,大脑处理图像...
在学术研究的广袤天地中,论文写作宛如一座巍峨耸立的大厦,是整个学术探索过程中至关重要的基石环节。对于广大研究生和学者而言,精准掌握论文写作的步骤与方法,就如同为一场充满挑战与未知的学术探索之旅配备了精准无误的导航仪,其重要性怎么强调都不为过。今天,就让我们一同深入探寻一篇合格论文诞生的五大关键步骤,助力大家轻松跨越论文写作这座看似高不可攀的难关,在学术的海洋中乘风破浪。一、论文写作:学术舞台上的璀...
影响因子:0.000
影响因子:16.525
影响因子:1.980
影响因子:0.000
影响因子:0.000
影响因子:8.944
影响因子:3.179
影响因子:0.000