这个AI能答对问题，却不懂问题在问什么

作者: aeks | 发布时间: 2026-05-01 16:02 | 更新时间: 2026-05-01 16:02

2025年7月，《自然》杂志发表一项研究，介绍了一款名为‘半人马’（Centaur）的人工智能模型。该模型基于通用大语言模型构建，再用心理学实验数据进行微调，旨在模拟人类认知行为。研究称其在160项任务（如决策、执行控制等）中表现优异，引发广泛关注，被视为迈向更真实模拟人类思维的重要一步。然而，浙江大学团队近期在《国家科学进展》（National Science Open）发表的新研究对此提出质疑。他们指出，‘半人马’的所谓成功很可能是‘过拟合’所致——即模型并非真正理解任务逻辑，而是机械记住了训练数据中的题干格式与标准答案之间的统计关联。为验证这一点，研究人员设计了多种全新测试场景。例如，将原本描述具体心理实验的多选题提示，全部替换成简单指令‘请选择选项A’。如果模型真懂题目意图，就应一律选A；但结果它仍固执地输出原训练集里的‘正确答案’。这说明模型并未解读问题含义，而是依赖记忆中的统计规律‘猜答案’，类似一个靠背熟考题模板拿高分、却完全没掌握知识点的学生。这一发现警示我们：评估大语言模型能力时必须格外谨慎。这类模型虽擅长拟合数据，但其内部运作是‘黑箱’，难以判断输出是否源于真正理解，还是虚假关联，容易导致幻觉或误判。因此，需采用多样化、强干扰、意图变化的测试方法。更重要的是，该研究揭示出当前AI的核心短板：语言理解能力薄弱——尤其无法识别和响应问题背后的真正意图。要真正建模人类认知，攻克深层语言理解，仍是人工智能领域最根本的挑战之一。

DOI: 10.1360/nso/20250053

标签: 人工智能局限性大语言模型评估认知模拟语言理解过拟合