一个经典脑力测试,暴露了人工智能的最大短板
作者: aeks | 发布时间: 2026-06-11 00:07 | 更新时间: 2026-06-11 00:07
本研究由Suketu Patel团队主导,采用心理学经典实验‘斯特鲁普任务’来检验当前主流大语言模型(如GPT-4o、Claude 3.5 Sonnet、Gemini 2.5等)的注意力机制。该任务要求参与者忽略文字含义(如‘红’字),只说出其印刷颜色(如蓝色墨水),看似简单,实则考验大脑抑制自动反应(读字)、主动聚焦目标(辨色)的能力,即所谓‘执行控制’——这是人类专注力、抗干扰和目标维持的核心认知功能。实验中,当输入仅5个颜色词时,AI表现良好(如GPT-4o准确率达91%);但随着词数增加,性能急剧下滑:10词时降至57%,40词时仅剩15%。Claude等模型也呈现类似‘临界点’(约20词后断崖式下跌)。更关键的是,当同一列表中同时出现匹配(‘红’字+红色墨水)与不匹配(‘红’字+蓝色墨水)项时,AI对不匹配项的识别准确率趋近于零——它不再遵循指令去辨色,而是‘习惯性’地读出文字本身。这表明AI无法像人类那样稳定抑制已被深度训练的强反应倾向。值得注意的是,人类虽同样存在‘读字快于辨色’的天然偏向,却能在长列表、高干扰条件下保持高准确率和稳定表现。研究指出:AI的‘语言能力’不等于‘注意力能力’;其底层机制并非模拟人脑的动态调控过程,而更依赖统计模式匹配。当任务复杂度升高、需持续抑制干扰并坚守目标时,现有大模型便暴露出根本性局限——它们可以模仿人类输出,却难以真正‘专注’。