多巴胺“失宠”了：大脑科学为何重新审视这种“快乐物质”

作者: aeks | 发布时间: 2026-04-13 18:04 | 更新时间: 2026-04-13 18:04

本文探讨神经科学领域关于多巴胺功能的根本性争议。长期以来，'奖赏预测误差（RPE）'假说占据主导地位：认为多巴胺神经元通过编码实际奖励与预期之间的偏差，帮助大脑学习关联（如铃声预示冰激凌），从而指导行为决策。该理论源自巴甫洛夫条件反射实验，后经灵长类研究证实，并发展为更广泛的‘时间差分强化学习（TDRL）’框架，在计算神经科学中被视为里程碑式成就。然而，近十年高精度活体监测技术揭示，多巴胺释放不仅响应奖赏，还显著参与注意调控、工作记忆、空间定位、运动控制、威胁预警、新异刺激识别，甚至在口渴或求偶等不同动机状态下动态切换编码重点。一些研究发现，部分多巴胺神经元同步编码位置、速度或目标接近度等非奖赏信息；另一些则能同时表征多个潜在奖励并辅助优先级排序。2025年新研究更指出，多巴胺可能直接预测自身动作（促进行为重复），而非仅反映奖赏误差——这意味着强迫性行为或成瘾未必源于RPE机制。面对海量‘越界’数据，学者开始质疑：是继续给RPE模型打补丁，还是彻底转向新范式？例如，纳姆布迪里提出‘因果关系调整净偶然性（ANCCR）’模型，主张学习本质是‘回溯式’的——动物先获得奖励，再反向搜寻线索，这比传统‘前向预测’更符合日常经验。尽管此类挑战引发热议，但因颠覆性强、验证难度大，相关论文常遭审稿阻力。这场辩论不仅关乎基础理论更新，更直接影响临床对ADHD、成瘾、精神分裂症等疾病的解释逻辑与干预策略。

DOI: 10.1038/d41586-026-00836-x

标签: 多巴胺奖赏预测误差强化学习神经可塑性