标签: 模型鲁棒性

该标签下共有 1 篇文章

评测大模型在生物医学文本处理中的表现：实用性和可靠性如何？

作者: aeks | 发布时间: 2025-11-29 18:03

为减少大语言模型的幻觉问题，检索增强型大语言模型（RALs）会检索外部知识，但它们在生物医学文本处理任务中的表现尚不明确。本研究创建生物医学检索增强生成基准（BioRAB），在5项任务、11个数据集上评估RALs的4项能力。结果显示，RALs总体优于标准大语言模型，但在反事实和多样场景下的鲁棒性及自我识别能力较弱。提出的检测-修正策略和对比学习方法显著改善了这些问题。

标签: 基准测试检索增强型大语言模型模型鲁棒性生物医学自然语言处理自我识别能力