一个经典脑力测试，暴露了人工智能的最大短板

作者: aeks | 发布时间: 2026-06-11 00:07 | 更新时间: 2026-06-11 00:07

本研究由Suketu Patel团队主导，采用心理学经典实验‘斯特鲁普任务’来检验当前主流大语言模型（如GPT-4o、Claude 3.5 Sonnet、Gemini 2.5等）的注意力机制。该任务要求参与者忽略文字含义（如‘红’字），只说出其印刷颜色（如蓝色墨水），看似简单，实则考验大脑抑制自动反应（读字）、主动聚焦目标（辨色）的能力，即所谓‘执行控制’——这是人类专注力、抗干扰和目标维持的核心认知功能。实验中，当输入仅5个颜色词时，AI表现良好（如GPT-4o准确率达91%）；但随着词数增加，性能急剧下滑：10词时降至57%，40词时仅剩15%。Claude等模型也呈现类似‘临界点’（约20词后断崖式下跌）。更关键的是，当同一列表中同时出现匹配（‘红’字+红色墨水）与不匹配（‘红’字+蓝色墨水）项时，AI对不匹配项的识别准确率趋近于零——它不再遵循指令去辨色，而是‘习惯性’地读出文字本身。这表明AI无法像人类那样稳定抑制已被深度训练的强反应倾向。值得注意的是，人类虽同样存在‘读字快于辨色’的天然偏向，却能在长列表、高干扰条件下保持高准确率和稳定表现。研究指出：AI的‘语言能力’不等于‘注意力能力’；其底层机制并非模拟人脑的动态调控过程，而更依赖统计模式匹配。当任务复杂度升高、需持续抑制干扰并坚守目标时，现有大模型便暴露出根本性局限——它们可以模仿人类输出，却难以真正‘专注’。

DOI: 10.1093/pnasnexus/pgag149

标签: 大语言模型执行控制斯特鲁普任务注意力机制认知局限