评测大模型在生物医学文本处理中的表现:实用性和可靠性如何?

作者: aeks | 发布时间: 2025-11-29 18:03 | 更新时间: 2025-11-29 18:03

学科分类: 临床医学 公共卫生与预防医学 生物医学工程 计算机科学与技术

大语言模型(LLMs)虽能力强大,但存在幻觉问题(生成虚假信息)和新知识获取不足的缺陷。检索增强型大语言模型(RALs)通过从外部数据库检索知识来减少幻觉并提升新知识适应能力,然而其在生物医学文本处理(NLP)任务中的表现研究较少,尤其是不同因素(如无标签数据、错误标签数据、多样数据、自我识别能力)对其跨任务性能的影响尚不明确。

为此,研究团队构建了生物医学检索增强生成基准(BioRAB),对5种主流LLMs(如LLaMA2-13B、MedLLaMA-13B等)结合3种检索器(BM25、Contriever、MedCPT),在5项生物医学NLP任务(三元组提取、链接预测、文本分类、问答、自然语言推理)的11个数据集上进行全面评估,并设计了4个测试集来测试RALs的4项关键能力:1. 抗无标签干扰能力:评估从无标签语料中提取有用信息的能力;2. 抗反事实干扰能力:测试处理含错误标签(反事实)语料的能力;3. 抗多样干扰能力:考察整合多任务数据的表现;4. 自我识别能力:判断检索知识是否对输出有帮助的能力。

实验结果表明:RALs在大多数生物医学任务上性能优于标准LLMs,例如在ChemProt和Hetionet数据集上,使用无标签语料的RALs表现优于基础LLM;但RALs对有标签语料依赖性强,在无标签语料上性能显著下降(如ADE任务中,有标签语料比无标签语料性能高26.41%);面对反事实语料时,RALs易被误导(如80%反事实率时F1分数降至约10%),仅在部分数据集(如ADE、Hetionet)中能处理;多样语料除自然语言推理任务外,未提升跨任务性能;自我识别能力薄弱,在PHarmKG和BioNLI数据集上的真负例识别率为0。

为解决这些问题,研究提出检测-修正策略(利用LLM检测并修正错误标签)和对比学习方法(增强模型区分正负例的能力),显著提升了RALs在无标签/反事实数据上的鲁棒性及自我识别能力(如在SemClass任务中,检测-修正方法优于无标签语料性能)。研究揭示了当前RALs的关键局限,强调需进一步优化以确保在高风险生物医学应用中的可靠性和准确性。

DOI: 10.1126/sciadv.adr1443

标签: 基准测试 检索增强型大语言模型 模型鲁棒性 生物医学自然语言处理 自我识别能力