多巴胺“失宠”了:大脑科学为何重新审视这种“快乐物质”

作者: aeks | 发布时间: 2026-04-13 18:04 | 更新时间: 2026-04-13 18:04

学科分类: 临床医学 心理学 生物医学工程 神经科学

多巴胺“失宠”了:大脑科学为何重新审视这种“快乐物质”
多巴胺“失宠”了:大脑科学为何重新审视这种“快乐物质”

本文探讨神经科学领域关于多巴胺功能的根本性争议。长期以来,'奖赏预测误差(RPE)'假说占据主导地位:认为多巴胺神经元通过编码实际奖励与预期之间的偏差,帮助大脑学习关联(如铃声预示冰激凌),从而指导行为决策。该理论源自巴甫洛夫条件反射实验,后经灵长类研究证实,并发展为更广泛的‘时间差分强化学习(TDRL)’框架,在计算神经科学中被视为里程碑式成就。然而,近十年高精度活体监测技术揭示,多巴胺释放不仅响应奖赏,还显著参与注意调控、工作记忆、空间定位、运动控制、威胁预警、新异刺激识别,甚至在口渴或求偶等不同动机状态下动态切换编码重点。一些研究发现,部分多巴胺神经元同步编码位置、速度或目标接近度等非奖赏信息;另一些则能同时表征多个潜在奖励并辅助优先级排序。2025年新研究更指出,多巴胺可能直接预测自身动作(促进行为重复),而非仅反映奖赏误差——这意味着强迫性行为或成瘾未必源于RPE机制。面对海量‘越界’数据,学者开始质疑:是继续给RPE模型打补丁,还是彻底转向新范式?例如,纳姆布迪里提出‘因果关系调整净偶然性(ANCCR)’模型,主张学习本质是‘回溯式’的——动物先获得奖励,再反向搜寻线索,这比传统‘前向预测’更符合日常经验。尽管此类挑战引发热议,但因颠覆性强、验证难度大,相关论文常遭审稿阻力。这场辩论不仅关乎基础理论更新,更直接影响临床对ADHD、成瘾、精神分裂症等疾病的解释逻辑与干预策略。

DOI: 10.1038/d41586-026-00836-x

标签: 多巴胺 奖赏预测误差 强化学习 神经可塑性