大语言模型越追求准确，反而越容易“胡说八道”

作者: aeks | 发布时间: 2026-04-23 16:01 | 更新时间: 2026-04-23 16:01

大语言模型有时会生成看似合理、实则错误的虚假信息，这种现象被称为“幻觉”，严重限制了模型的可信度。此前研究已提出多种改进方案，例如引入外部检索、调用工具、基于一致性的自我验证，以及人类反馈强化学习等，但即使在最先进的模型中，幻觉问题仍未根本解决。本文揭示了一个关键原因：当前主流的“下一个词预测”预训练范式，以及以准确率（accuracy）为核心的评估方式，实际上在无意中奖励了盲目猜测。具体来说，从学习理论出发，研究指出：训练数据中仅出现一次的零星事实（如某个特定人名或日期），因缺乏重复支持，模型几乎必然出错；而反复出现的规律（如语法规则）则容易被学好。后续训练虽试图修正错误，但像准确率这样的主流评估指标，对“答错”和“拒绝回答”不做区分——只要模型敢猜且碰巧蒙对，就能得分；而诚实地表示“不知道”，反而得零分。这就形成了错误的激励：宁可胡说，不可沉默。为扭转这一倾向，作者提出两项务实改进：第一，采用“开放评分标准”评估法，即在评测前明确公示各类错误（包括幻觉、拒答、答错等）的扣分规则，检验模型能否根据任务重要性动态调整“是否作答”的策略；第二，将现有评测基准改造为开放评分版本，尤其推动专用于检测幻觉的评测进入公开排行榜，从而倒逼模型优化诚实性而非单纯追求高分。简言之，本文将幻觉问题重新定义为一个“激励设计”问题，为构建更可靠、更值得信赖的大语言模型提供了清晰可行的技术路径。

DOI: 10.1038/s41586-026-10549-w

标签: 大语言模型幻觉开放评分标准模型诚实性评估激励