大语言模型越追求准确,反而越容易“胡说八道”
作者: aeks | 发布时间: 2026-04-23 16:01 | 更新时间: 2026-04-23 16:01
学科分类: 智能科学与技术 网络空间安全 计算机科学与技术 软件工程
大语言模型有时会生成看似合理、实则错误的虚假信息,这种现象被称为“幻觉”,严重限制了模型的可信度。此前研究已提出多种改进方案,例如引入外部检索、调用工具、基于一致性的自我验证,以及人类反馈强化学习等,但即使在最先进的模型中,幻觉问题仍未根本解决。本文揭示了一个关键原因:当前主流的“下一个词预测”预训练范式,以及以准确率(accuracy)为核心的评估方式,实际上在无意中奖励了盲目猜测。具体来说,从学习理论出发,研究指出:训练数据中仅出现一次的零星事实(如某个特定人名或日期),因缺乏重复支持,模型几乎必然出错;而反复出现的规律(如语法规则)则容易被学好。后续训练虽试图修正错误,但像准确率这样的主流评估指标,对“答错”和“拒绝回答”不做区分——只要模型敢猜且碰巧蒙对,就能得分;而诚实地表示“不知道”,反而得零分。这就形成了错误的激励:宁可胡说,不可沉默。为扭转这一倾向,作者提出两项务实改进:第一,采用“开放评分标准”评估法,即在评测前明确公示各类错误(包括幻觉、拒答、答错等)的扣分规则,检验模型能否根据任务重要性动态调整“是否作答”的策略;第二,将现有评测基准改造为开放评分版本,尤其推动专用于检测幻觉的评测进入公开排行榜,从而倒逼模型优化诚实性而非单纯追求高分。简言之,本文将幻觉问题重新定义为一个“激励设计”问题,为构建更可靠、更值得信赖的大语言模型提供了清晰可行的技术路径。