这个AI能答对问题,却不懂问题在问什么
作者: aeks | 发布时间: 2026-05-01 16:02 | 更新时间: 2026-05-01 16:02
学科分类: 人工智能 心理学 控制科学与工程 计算机科学与技术
2025年7月,《自然》杂志发表一项研究,介绍了一款名为‘半人马’(Centaur)的人工智能模型。该模型基于通用大语言模型构建,再用心理学实验数据进行微调,旨在模拟人类认知行为。研究称其在160项任务(如决策、执行控制等)中表现优异,引发广泛关注,被视为迈向更真实模拟人类思维的重要一步。然而,浙江大学团队近期在《国家科学进展》(National Science Open)发表的新研究对此提出质疑。他们指出,‘半人马’的所谓成功很可能是‘过拟合’所致——即模型并非真正理解任务逻辑,而是机械记住了训练数据中的题干格式与标准答案之间的统计关联。为验证这一点,研究人员设计了多种全新测试场景。例如,将原本描述具体心理实验的多选题提示,全部替换成简单指令‘请选择选项A’。如果模型真懂题目意图,就应一律选A;但结果它仍固执地输出原训练集里的‘正确答案’。这说明模型并未解读问题含义,而是依赖记忆中的统计规律‘猜答案’,类似一个靠背熟考题模板拿高分、却完全没掌握知识点的学生。这一发现警示我们:评估大语言模型能力时必须格外谨慎。这类模型虽擅长拟合数据,但其内部运作是‘黑箱’,难以判断输出是否源于真正理解,还是虚假关联,容易导致幻觉或误判。因此,需采用多样化、强干扰、意图变化的测试方法。更重要的是,该研究揭示出当前AI的核心短板:语言理解能力薄弱——尤其无法识别和响应问题背后的真正意图。要真正建模人类认知,攻克深层语言理解,仍是人工智能领域最根本的挑战之一。
DOI: 10.1360/nso/20250053