梅林:一种能“看懂”CT影像的智能模型与数据集
作者: aeks | 发布时间: 2026-03-05 15:02 | 更新时间: 2026-03-05 15:02
学科分类: 临床医学 公共卫生与预防医学 生物医学工程 计算机科学与技术
当前,腹部CT检查数量激增,但放射科医生严重短缺,导致报告积压、诊断延迟。传统人工智能模型多基于二维图像和简短报告,难以全面理解复杂的三维腹部解剖结构和临床信息。为此,研究人员开发了名为‘梅林’(Merlin)的新型3D视觉-语言基础模型。它首次将三维CT体数据、电子健康记录(EHR)和完整放射科报告三者联合建模,通过多阶段自监督预训练实现,全程无需额外人工标注。研究团队使用高质量临床数据集进行训练:包含15,331例腹部CT扫描(超600万张二维切片)、180余万个诊断编码及超600万个文本词元的报告。模型在六大类共752项任务上进行了全面评测,涵盖三大方向:一是‘即插即用’型零样本任务(不需微调),如识别30种常见异常征象、对692种疾病表型分类、以及图文跨模态检索(例如输入图像自动匹配对应征象描述或诊断印象);二是经轻量微调的任务,包括预测未来5年内6种慢性病(如糖尿病、高血压)发病风险、自动生成结构化放射科报告、以及对20个腹部器官进行三维语义分割。验证规模庞大:内部测试覆盖5,137例CT,外部验证则在3家独立医疗机构及2个公开数据集的44,098例CT上完成,结果表明模型在不同医院、不同设备、不同人群间均具备优异泛化能力。相比现有二维视觉-语言模型、CT专用基础模型及商用放射科AI工具,‘梅林’在各项任务中均表现更优。研究还通过缩放律分析和消融实验,明确了最优训练策略(如分阶段引入EHR与报告、采用多任务学习等)。作者已开源全部模型权重、训练代码及含25,494对腹部CT与报告的高质量数据集。该成果不仅可切实缓解放射科医生工作负担、提升报告效率与诊断一致性,也为未来发现新型影像生物标志物、实现个体化疾病风险分层提供了强大技术支撑。