便宜的AI聊天机器人,让缺医少药的地方看病更方便
作者: aeks | 发布时间: 2026-02-07 03:02 | 更新时间: 2026-02-07 03:02
学科分类: 临床医学 公共卫生与预防医学 生物医学工程 计算机科学与技术
大型语言模型(LLMs)能通过研究生医学考试,也能在受控的基准测试中协助临床医生诊断。但在现实医疗场景中,医生人手不足、患者数量多且资源有限,它们是否有用呢?2月6日发表在《自然-健康》的两项研究表明,LLMs能胜任这一任务。研究发现,在卢旺达和巴基斯坦的医疗环境中,成本低廉的LLMs可提高诊断成功率,甚至表现优于训练有素的临床医生。
在卢旺达的研究中,研究人员测试了LLMs能否在四个地区的低资源医疗系统中为患者提供准确的临床信息。该研究的合著者、致力于健康公平的伦敦全球非营利组织PATH的首席AI官比拉尔·马滕表示,当地的一个常见问题是医生和护士太少,无法接诊所有患者,因此大多数人由几乎没有受过训练的社区工作者接诊和分诊。马滕的团队让约100名社区卫生工作者整理了他们从患者那里收到的5600多个临床问题清单。研究人员将五个LLMs对其中约500个问题的回答与受过训练的当地临床医生的答案进行了比较。以5分制评分显示,所有LLMs在包括与既定医学共识的一致性、对问题的理解以及回答导致伤害的可能性等11项指标上均优于当地临床医生。该团队还证明,LLMs能用卢旺达的国语——基尼亚卢旺达语回答约100个问题。马滕说,LLMs还有另一个优势:社区卫生工作者可以24小时咨询它们,而医生则做不到。LLMs的每条回答成本也低500倍——临床医生的回答平均成本为医生5.43美元、护士3.80美元,而LLMs的回答英语为0.0035美元,基尼亚卢旺达语为0.0044美元。马萨诸塞州波士顿贝斯以色列女执事医疗中心的临床和AI研究员亚当·罗德曼表示,这项研究“表明商业LLMs能够对常见咨询给出医学和文化上合适的回答”。不过,罗德曼对LLMs与人类表现的比较仍持怀疑态度。他说,这种书面答案的评估机制擅长衡量模型,但对人类表现的衡量效果较差。
在巴基斯坦,由巴基斯坦拉合尔管理科学大学的计算机科学家伊赫桑·卡齐领导的研究人员发现,LLMs能在低资源医疗环境中提高诊断准确性。卡齐说,那里医疗专家匮乏且患者数量庞大,导致诊断错误率很高。卡齐的团队进行了一项随机对照试验,58名持照医生接受了20小时的培训,学习如何使用LLMs辅助诊断患者症状,并警惕程序出现的错误或幻觉。与仅使用PubMed和互联网搜索的医生相比,使用GPT-4o LLM的医生在审查临床病例时的诊断准确性评分显著提高。使用LLMs的医生平均诊断推理得分达71%,而使用传统资源的医生为43%。一项次要分析发现,仅使用LLMs的得分比有LLMs辅助的医生更高。但也有例外,在31%的病例中,医生的表现优于中等水平的单独AI。卡齐说:“事实证明,这些病例涉及LLMs似乎忽略的危险信号和背景因素。”卡齐预计他的结果适用于其他国家,但表示需要用其他聊天机器人进行复制。“这项工作开辟了新的途径,最终可能导致AI与医疗保健更安全、更有效的整合。”