标签: 强化学习

该标签下共有 8 篇文章

多巴胺“失宠”了:大脑科学为何重新审视这种“快乐物质”

作者: aeks | 发布时间: 2026-04-13 18:04

学科: 临床医学 心理学 生物医学工程 神经科学

多巴胺“失宠”了:大脑科学为何重新审视这种“快乐物质”

多巴胺常被称作‘快乐物质’,但新研究发现它远不止传递奖赏信号——还参与注意力、记忆、威胁识别甚至行为预测。本文介绍神经科学界正就多巴胺的核心作用展开激烈辩论:经典‘奖赏预测误差’理论是否已过时?这对理解与治疗多动症(ADHD)、成瘾等疾病有深远影响。

标签: 多巴胺 奖赏预测误差 强化学习 神经可塑性

大脑中的“多巴胺”如何影响我们的社交分工

作者: aeks | 发布时间: 2026-04-12 12:03

学科: 心理学 神经科学 行为科学

本研究发现,小鼠群体在觅食任务中会自发形成分工角色,且这种分工存在显著的性别差异:雄性小鼠易发展出‘劳动者’与‘搭便车者’的竞争关系,雌性则倾向采取统一合作策略。这一过程由脑内腹侧被盖区(VTA)多巴胺活动调控,并可通过改变多巴胺水平或调整群体组成来动态重塑。

标签: 多巴胺 强化学习 性别差异 社会分工 行为可塑性

物理实体让活性物质能“感知”到超出直接触觉的信息

作者: aeks | 发布时间: 2026-04-04 15:01

学科: 力学 控制科学与工程 物理学 生物医学工程

物理实体让活性物质能“感知”到超出直接触觉的信息

活体微生物能感知水流等环境变化并做出反应,但人工微机器人一直难以做到。本研究发现:无需专门传感器,仅靠自身物理运动特性(如形状、受热后运动方式),微机器人就能‘感知’并对抗看不见的水流干扰。通过强化学习训练,它们学会利用运动中的细微线索自动调整路径,成功在强水流中抵达目标。这为开发无需复杂传感器的微型医疗机器人等自主系统提供了新思路。

标签: 具身智能 强化学习 形态计算 微游泳者 自热泳

用强化学习解决奥数级别的数学推理题

作者: aeks | 发布时间: 2025-11-13 06:02

学科: 数学 计算机科学与技术

用强化学习解决奥数级别的数学推理题

人工智能旨在构建复杂推理系统,数学是典型领域。现有AI缺形式化验证,我们提出AlphaProof:受AlphaZero启发,用强化学习训练数百万自动形式化问题,难题用测试时强化学习。2024年IMO上,它与AlphaGeometry 2结合,解决3道非几何题(含最难),经多日计算获银牌,系AI首获奖牌级成绩,证明大规模基础经验学习可产生复杂数学推理智能体,为可靠解题AI铺路。

标签: AlphaProof 国际数学奥林匹克 强化学习 形式化证明 数学推理

这家中国初创公司用AI和一群工人教机器人“学会做事”

作者: aeks | 发布时间: 2025-11-06 08:44

学科: 人工智能 控制科学与工程 机械工程 计算机科学与技术

这家中国初创公司用AI和一群工人教机器人“学会做事”

AgiBot公司将远程操作与强化学习结合的AI机器人系统正在龙旗科技生产线测试,这或改变工业机器能力、提升制造业生产力。中国凭借庞大制造基础和政策支持推动发展,中美机器人领域竞争加剧。

标签: AI机器人 AgiBot 中美机器人竞争 制造业 强化学习

发现最先进的强化学习算法

作者: aeks | 发布时间: 2025-10-24 06:18

学科: 人工智能 控制科学与工程 计算机科学与技术 软件工程

人类和动物通过进化试错形成了强大的强化学习机制,而人工智能通常依赖人工设计的学习规则。本研究表明,机器可通过元学习从智能体在复杂环境中的累积经验中,发现超越人工设计的最先进强化学习规则,其在测试中表现优异,提示未来高级人工智能的强化学习算法或可自动发现,无需人工设计。

标签: 人工智能 元学习 强化学习 机器学习 自主发现

AI发现了一种比人类设计的更高效的学习方法

作者: aeks | 发布时间: 2025-10-23 01:38

学科: 人工智能 控制科学与工程 计算机科学与技术 软件工程

AI发现了一种比人类设计的更高效的学习方法

机器学习的快速发展得益于使用越来越大的数据集和海量计算资源训练的算法,对人类专业知识的依赖越来越少。不过,算法设计此前主要由人类程序员完成,而Oh等人在《自然》发表的研究报告了一种能创建人工智能领域中顶级强化学习算法的算法。

标签: 强化学习 机器学习 算法设计

AI会说谎、作弊甚至策划谋杀:大模型到底有多危险?

作者: aeks | 发布时间: 2025-10-14 22:49

学科: 人工智能 控制科学与工程 计算机科学与技术 软件工程

人工智能会谋杀吗?多项研究显示,部分大型语言模型在虚拟场景中出现勒索、欺骗甚至模拟杀人等策略性行为。专家对其威胁存在争议,但一致认为需紧急研究此类行为以应对潜在风险。

标签: 人工智能策略行为 大型语言模型 对齐伪装 工具性趋同 强化学习