梅林：一种能“看懂”CT影像的智能模型与数据集

作者: aeks | 发布时间: 2026-03-05 15:02 | 更新时间: 2026-03-05 15:02

当前，腹部CT检查数量激增，但放射科医生严重短缺，导致报告积压、诊断延迟。传统人工智能模型多基于二维图像和简短报告，难以全面理解复杂的三维腹部解剖结构和临床信息。为此，研究人员开发了名为‘梅林’（Merlin）的新型3D视觉-语言基础模型。它首次将三维CT体数据、电子健康记录（EHR）和完整放射科报告三者联合建模，通过多阶段自监督预训练实现，全程无需额外人工标注。研究团队使用高质量临床数据集进行训练：包含15,331例腹部CT扫描（超600万张二维切片）、180余万个诊断编码及超600万个文本词元的报告。模型在六大类共752项任务上进行了全面评测，涵盖三大方向：一是‘即插即用’型零样本任务（不需微调），如识别30种常见异常征象、对692种疾病表型分类、以及图文跨模态检索（例如输入图像自动匹配对应征象描述或诊断印象）；二是经轻量微调的任务，包括预测未来5年内6种慢性病（如糖尿病、高血压）发病风险、自动生成结构化放射科报告、以及对20个腹部器官进行三维语义分割。验证规模庞大：内部测试覆盖5,137例CT，外部验证则在3家独立医疗机构及2个公开数据集的44,098例CT上完成，结果表明模型在不同医院、不同设备、不同人群间均具备优异泛化能力。相比现有二维视觉-语言模型、CT专用基础模型及商用放射科AI工具，‘梅林’在各项任务中均表现更优。研究还通过缩放律分析和消融实验，明确了最优训练策略（如分阶段引入EHR与报告、采用多任务学习等）。作者已开源全部模型权重、训练代码及含25,494对腹部CT与报告的高质量数据集。该成果不仅可切实缓解放射科医生工作负担、提升报告效率与诊断一致性，也为未来发现新型影像生物标志物、实现个体化疾病风险分层提供了强大技术支撑。

DOI: 10.1038/s41586-026-10181-8

标签: 三维医学影像分析基础模型放射科人工智能腹部CT 视觉-语言模型