生成式AI分析医疗数据,比人类研究团队更快

作者: aeks | 发布时间: 2026-02-21 22:03 | 更新时间: 2026-02-21 22:03

学科分类: 临床医学 公共卫生与预防医学 生物医学工程 计算机科学与技术

为直接比较表现,研究人员给不同小组分配了相同任务:部分团队完全依赖人类专业知识,另一些则让科学家借助AI工具开展工作。任务是利用1000多名孕妇的数据预测早产。
即便是由加州大学旧金山分校(UCSF)硕士生鲁本·萨尔瓦尔和高中生维克多·塔卡组成的初级研究搭档,在AI支持下也成功开发出了预测模型。该系统几分钟就能生成可用的计算机代码,而这通常需要经验丰富的程序员花费数小时甚至数天时间。
AI的优势在于能基于简短但高度具体的提示编写分析代码。不过并非所有系统表现都好,8个AI聊天机器人中只有4个生成了可用代码。但成功的AI系统并不需要大型专家团队指导。
凭借这种速度,初级研究者得以在几个月内完成实验、验证发现并向期刊提交结果。
“这些AI工具可能缓解数据科学中最大的瓶颈之一:构建我们的分析流程,”加州大学旧金山分校儿科学教授、巴卡尔计算健康科学研究所(BCHSI)临时主任、该校“优生优育基金会早产研究中心”首席研究员玛丽娜·西罗塔博士说,“对于现在就需要帮助的患者来说,这种提速越早越好。”西罗塔是这项2月17日发表在《细胞报告医学》(Cell Reports Medicine)上的研究的共同资深作者。
为何早产研究至关重要
加快数据分析可能改进早产诊断工具。早产是新生儿死亡的主要原因,也是导致儿童长期运动和认知障碍的重要因素。在美国,每天约有1000名婴儿早产。
研究人员仍未完全了解早产的原因。为调查可能的风险因素,西罗塔团队汇总了来自约1200名孕妇的微生物组数据,这些孕妇的妊娠结果在9项独立研究中被追踪。
“这类工作只有通过开放数据共享,汇集众多女性的经历和许多研究人员的专业知识才能实现,”优生优育基金会早产数据库联合主任、加州大学旧金山分校BCHSI副教授、该论文合著者富美子·T·大斯科茨基医学博士说。
然而,分析如此庞大复杂的数据集颇具挑战。为此,研究人员借助了名为DREAM(逆向工程评估与方法对话)的全球众包竞赛。西罗塔共同领导了三项DREAM妊娠挑战中的一项,专门聚焦阴道微生物组数据。全球100多个团队参与其中,开发旨在检测与早产相关模式的机器学习模型。大多数团队在三个月的竞赛期内完成了工作,但整合研究结果并发表花了近两年时间。
在妊娠和微生物组数据上测试AI
出于对生成式AI能否缩短这一时间线的好奇,西罗塔团队与阿迪·L·塔卡博士领导的研究人员合作。塔卡是共同资深作者、密歇根州底特律韦恩州立大学分子医学与遗传学中心教授,他曾领导另外两项DREAM挑战,聚焦改进妊娠阶段估算方法。
研究人员共同指示8个AI系统在没有直接人工编码的情况下,使用三项DREAM挑战的相同数据集独立生成算法。这些AI聊天机器人收到了精心编写的自然语言指令,就像ChatGPT一样,通过详细提示引导它们以与原始DREAM参与者相似的方式分析健康数据。
它们的目标与早期挑战一致:分析阴道微生物组数据以识别早产迹象,并检查血液或胎盘样本以估算胎龄。妊娠日期几乎总是估算值,但它决定了孕妇在妊娠过程中接受的护理类型。当估算不准确时,为分娩做准备会变得更加困难。
研究人员随后使用DREAM数据集运行AI生成的代码。8个工具中只有4个生成的模型性能与人类团队相当,不过在某些情况下AI模型表现更好。整个生成式AI研究——从启动到提交论文——仅用了6个月。
科学家强调,AI仍需要仔细监督。这些系统可能产生误导性结果,人类专业知识仍然至关重要。不过,通过快速梳理海量健康数据集,生成式AI可能让研究人员减少调试代码的时间,更多地专注于解读结果和提出有意义的科学问题。
“多亏了生成式AI,数据科学背景有限的研究人员不必总是需要广泛合作或花费数小时调试代码,”塔卡说,“他们可以专注于回答正确的生物医学问题。”
研究作者包括加州大学旧金山分校的鲁本·萨尔瓦尔、克莱尔·杜宾、桑奇塔·巴塔查里亚(硕士)和阿图尔·布特医学博士;其他作者有维克多·塔卡(密歇根州安阿伯休伦高中)、尼古拉斯·卡拉夫罗斯和古斯塔沃·斯托洛维茨基博士(纽约大学)、高拉夫·巴蒂(韦恩州立大学)以及罗伯托·罗梅罗医学博士(美国国立儿童健康与人类发展研究所)。
本研究由加州大学旧金山分校优生优育基金会早产研究中心和ImmPort资助。本研究使用的数据部分由国立儿童健康与人类发展研究所妊娠研究分支支持生成。

DOI: 10.1016/j.xcrm.2026.102594

标签: 人工智能辅助研究 微生物组数据 数据分析加速 早产预测 机器学习模型