发现最先进的强化学习算法

作者: aeks | 发布时间: 2025-10-24 06:18 | 更新时间: 2025-10-24 06:18

学科分类: 人工智能 控制科学与工程 计算机科学与技术 软件工程

人类和其他动物拥有通过进化过程中多代试错形成的强大强化学习机制。相比之下,人工智能体通常依赖人工设计的学习规则进行学习。尽管数十年来人们一直对此感兴趣,但自主发现强大的强化学习算法仍是一个难题。在这项研究中,研究者们证明,机器能够发现一种最先进的强化学习规则,其性能超越了人工设计的规则。这一成果是通过元学习实现的——元学习指的是从大量智能体在众多复杂环境中的累积经验中进行学习(即通过学习智能体的经验来掌握更好的学习方法)。具体而言,他们的方法发现了用于更新智能体策略和预测的强化学习规则。在大规模实验中,这种发现的规则在知名的Atari基准测试中超越了所有现有规则,并且在其发现阶段未曾接触过的具有挑战性的基准测试中,也表现优于多种最先进的强化学习算法。研究结果表明,未来构建高级人工智能所需的强化学习算法或许能够通过智能体的经验自动发现,而非依赖人工设计。

DOI: 10.1038/s41586-025-09761-x

标签: 人工智能 元学习 强化学习 机器学习 自主发现