能解释诊断思路的罕见病智能辅助诊断系统
作者: aeks | 发布时间: 2026-02-19 06:04 | 更新时间: 2026-02-19 06:04
学科分类: 临床医学 基础医学 生物医学工程 计算机科学与技术
罕见病——定义为影响不到2000分之一人口的疾病——全球累计影响超3亿人,目前已发现7000多种不同疾病,其中约80%源于遗传。尽管负担沉重,但罕见病因临床表现异质性强、个体患病率低以及临床医生熟悉度有限,诊断极为困难。患者常经历平均超过5年的“诊断之旅”,期间反复转诊、误诊和接受不必要的干预,导致治疗延误和不良后果。这些挑战凸显了对可扩展、准确且可解释的诊断工具的迫切需求——而多智能体系统的最新进展为此提供了变革潜力。
开发用于罕见病诊断的人工智能(AI)系统面临若干固有挑战:(1)多学科性(罕见病常表现为复杂、异质的多系统症状,要求诊断模型具备多学科医学知识和解读多样患者表型的能力);(2)病例有限(单个罕见病病例稀缺,限制了训练数据的可用性,难以开发稳健模型,还会增加过拟合和灾难性遗忘的风险);(3)知识动态更新(罕见病知识体系快速发展,据国际罕见病研究联盟(IRDiRC)统计,每年约发现260至280种罕见遗传病);(4)透明性和可追溯性(临床部署要求可解释性,诊断建议必须附带透明、可追溯的推理,以支持临床医生的信任和问责)。这种动态特性要求AI系统不仅可更新,还能高效整合新知识。
基于智能体的大型语言模型(LLM)系统的最新进展为罕见病诊断开辟了新途径。这些系统协调多个专业工具和子智能体,实现外部知识库、病例库和多模态分析组件的无缝整合。与传统监督学习方法不同,这些系统通常无需训练,擅长少样本和零样本场景——这对标注数据稀缺的罕见病应用至关重要。其模块化和可解释的架构进一步促进了透明、可审计且具有临床实用性的诊断流程。
本文介绍DeepRare,这是一种专为罕见病鉴别诊断决策支持设计的基于智能体LLM的系统。DeepRare能够处理多样化的患者输入,包括自由文本临床描述、结构化人类表型本体(HPO)术语和基因组检测结果。基于这些输入,系统生成候选诊断的排名列表,每个诊断都由直接引用可验证医学证据的透明推理链支持,增强了可解释性并支持临床医生对AI辅助决策的信任。受模型上下文协议(MCP)启发,DeepRare采用三层架构:中央LLM驱动的主机(带有内存)协调整个流程,专业智能体服务器处理表型和基因型分析、标准化及知识检索,外层整合精选的和网络级的医疗资源。为提高稳健性,DeepRare还采用自反思循环,迭代重新评估假设,减少过度诊断并减轻LLM的“幻觉”问题。
我们在从7个公共数据集和2个内部数据集收集的6401例临床病例上对DeepRare进行了评估,这些病例来自亚洲、北美和欧洲的不同人群。此外,上海新华医院和湖南湘雅医学院附属儿童医院的2个内部数据集包含330例既有表型又有全外显子测序(WES)数据的病例。该队列中的所有诊断均通过基因检测严格验证,为评估诊断性能提供了高质量标准。DeepRare在涵盖14个医学专科的2919种罕见病的所有8个数据集上持续实现卓越的诊断准确性。
在基于HPO的评估中,与包括传统生物信息学工具、LLM和智能体系统在内的另外15种方法相比,DeepRare的Recall@1(正确诊断为排名第一预测的病例百分比)和Recall@3(正确诊断出现在前三名预测中的病例百分比)平均得分分别为57.18%和65.25%,大幅超过第二名方法(推理LLM)23.79%和18.65%。在多模态输入场景中,DeepRare在新华医院全外显子病例中的Recall@1达69.1%,优于Exomiser的55.9%。此外,我们邀请10位罕见病医生手动验证系统在180例病例中生成的可追溯推理链。DeepRare在证据真实性方面表现出高可靠性,与临床专家达成95.4%的一致性,证实其中间推理步骤既具有医学有效性,又可追溯至权威来源。为促进临床采用,我们已将DeepRare部署为用户友好的Web应用,作为罕见病医生的诊断“副驾”。最后,我们通过评估不同的基础LLM并分析每个模块的贡献来讨论智能体框架的稳健性,证明了我们系统设计的优越性。