Research丨生成式AI重塑医疗影像:从底层技术到临床全流程的变革之路
当医学影像遇上生成式人工智能(Generative AI),影像不再只是“记录病灶的照片”,而正在变成一种可增强、可补全、可推演的临床信息载体:既能在低剂量、快速扫描等受限条件下“看得更清”,也有机会在跨模态缺失、随访不完整等真实世界场景中“看得更全、更连续”。
近期,医学成像科学与技术系统全国重点实验室郑海荣院士与王珊珊研究员团队围绕生成式人工智能在医疗影像领域的关键进展与临床应用进行了系统综述。相关研究成果以“Generative Artificial Intelligence in Medical Imaging: Foundations, Progress, and Clinical Translation”为题,发表于国际期刊Research。

图1:文章上线截图
研究背景:医疗影像的“数据孤岛”与“质量瓶颈”
医疗影像是现代医学的基石,贯穿于疾病筛查、诊断、治疗规划及预后评估的全过程。然而,在实际临床应用中,医生和科研人员常面临多重挑战:
数据稀缺与异质性:高质量、可用且带标注的医学图像获取困难;不同中心、不同设备与不同协议导致数据标准不一、分布差异显著。
成像质量与成本的博弈:为了降低辐射剂量、缩短扫描时间或减少采样,常常不得不牺牲图像质量,带来噪声、伪影与细节丢失,影响诊断可靠性。
纵向数据缺口:长期随访影像往往不连续、不完整,难以支撑疾病进程预测与疗效动态评估。
这些限制共同指向一个需求:需要能补齐缺失、统一异质、增强质量的生成式模型,来支撑更可靠的影像分析与临床决策(图2)。

图2:医学影像在临床工作流程中的挑战
全谱系技术梳理
近十年,生成式AI快速演进:从GAN到VAE,从扩散模型到Transformer/Mamba等序列建模架构,再到新兴的多模态基础模型(Foundation Models)。它们不再只是“生成好看的图像”,而是逐步具备对医学影像分布进行建模、补全缺失信息、提升图像质量、跨模态翻译乃至模拟时空变化的能力,为医疗影像打开新的技术空间。
文章对主流技术架构进行了“全景式回顾”:既覆盖经典方法的核心思想与适用边界,也重点剖析了相关技术在不同任务的优缺点(图3)。

图3:医学影像生成式AI的核心架构示意图。涵盖了GAN(A)、VAE(B)、DPM(C)、序列模型(D)及基础模型预训练架构(E)
构建临床全流程应用图谱
与以往按模型类别罗列不同,这篇综述的一大亮点,是将生成式模型的能力放回临床流程中重新组织,构建出清晰的“全流程应用图谱”:从成像——诊断——治疗——预后。
这意味着生成式AI的价值不再局限于“补数据”,而是在全链条上帮助临床回答更直接的问题:
看得更清:在低剂量、快速或稀疏采样条件下恢复细节、提升可读性;
看得更全:实现MRI<—>CT、PET<—>MRI等跨模态补全,减少因检查条件受限带来的信息缺口;
看得更快:在时间敏感场景(急诊、术中、放疗适配)推动更接近实时的影像更新;
看得更远:用纵向生成建模模拟肿瘤生长、神经退行进展等,为个体化随访与治疗策略提供“可推演的影像证据”。
从“像不像”到“有用吗”的三层评价体系
生成式模型在医疗影像里最难的,往往不是“能生成”,而是“能否可靠用于临床”。传统像素指标(如PSNR/SSIM)常常难以反映解剖合理性与临床可用性,也使不同方法之间难以公平对比。为此,论文提出面向临床转化的三层级评价框架(图4):
像素层:衡量基础图像质量与结构保真;
特征/分布层:评估语义一致性与分布对齐,并引入图文一致性等思路辅助发现“幻觉”;
临床层:通过专家评阅与下游任务表现,验证生成结果是否真正提升诊断、分割、预测等临床相关任务。

图4:医学影像生成模型的三层评价体系
挑战与边界:可信、泛化、算力与治理
论文也明确指出,生成式AI要进入临床常规工作流,还必须跨越几道门槛:
幻觉与黑箱:可能生成不存在的病灶或细节,且难以解释,带来临床风险;
泛化与偏倚:跨机构、跨设备、跨人群性能下滑,甚至放大医疗不公平;
算力与实时性:高分辨率/3D模型训练部署成本高,影响临床可扩展性;
监管与伦理:高风险医疗AI需要透明、可追溯、有人类监督,责任划分与合成数据的合规使用仍在演进中。
面向未来:从基础模型走向“世界模型/数字孪生”
更值得期待的是,论文提出了清晰趋势:未来发展将从当前基础模型进一步走向“世界模型/数字孪生”——不仅生成图像,更能在可解释、可控框架下模拟生理过程与个体化疾病轨迹;并通过融合影像+文本+组学等多模态信息,形成更完整的个体画像。
要实现这一愿景,关键方向包括:提升跨域鲁棒性、推进不确定性量化与幻觉检测、引入解剖/生理先验增强可解释性、优化高效推理以支持实时临床场景,并建立更标准化、可治理的评价与部署体系。