AI模型开始通过自问自答来学习

作者: aeks | 发布时间: 2026-01-09 06:04 | 更新时间: 2026-01-09 06:04

学科分类: 智能科学与技术 计算机科学与技术 软件工程

AI模型开始通过自问自答来学习
AI模型开始通过自问自答来学习

或许人工智能其实可以通过一种更接近人类的方式学习——自己提出有趣的问题并尝试找到正确答案。清华大学、北京通用人工智能研究院(BIGAI)和宾夕法尼亚州立大学的一项研究表明,人工智能可以通过处理计算机代码来学习这种推理方式。研究人员设计了一个名为“绝对零推理器”(AZR)的系统,该系统首先利用大型语言模型生成具有挑战性但可解决的Python编程问题,然后使用同一模型解决这些问题,并通过运行代码来检查结果。最后,AZR系统将成功和失败作为信号来优化原始模型,增强其提出更好问题和解决问题的能力。研究团队发现,这种方法显著提升了开源语言模型Qwen(70亿和140亿参数版本)的编码和推理能力。令人印象深刻的是,该模型甚至超越了一些接受过人类标注数据训练的模型。笔者通过Zoom采访了清华大学博士生赵安德鲁(Andrew Zhao)——他是“绝对零”最初想法的提出者,以及北京通用人工智能研究院的研究员郑子龙(Zilong Zheng),他们共同参与了该项目。赵安德鲁表示,这种方法类似于人类学习超越死记硬背或模仿的方式:“一开始你模仿父母和老师,但之后你必须自己提出问题,最终你可能会超越学校里教你的人。”赵安德鲁和郑子龙指出,这种被称为“自我对弈”(self-play)的AI学习理念由来已久,著名AI先驱于尔根·施密德胡贝尔(Jürgen Schmidhuber)和法国国家信息与自动化研究所(Inria)的计算机科学家皮埃尔-伊夫·乌代耶(Pierre-Yves Oudeyer)等人曾对此进行过探索。郑子龙认为,该项目最令人兴奋的一点是模型的问题提出和解决能力具有可扩展性:“随着模型变得更强大,问题难度也会随之提升。”目前该系统面临的一个关键挑战是,它仅适用于容易检查的问题,如涉及数学或编码的问题。随着项目的推进,未来可能将其应用于智能体AI任务,如网页浏览或办公室杂务,这可能需要AI模型判断智能体的行为是否正确。“绝对零”这类方法的一个迷人可能性是,理论上它能让模型超越人类教学。郑子龙表示:“一旦实现这一点,就可能成为通向超级智能的一种途径。”已有初步迹象表明,“绝对零”方法正在一些大型AI实验室流行起来。Salesforce、斯坦福大学和北卡罗来纳大学教堂山分校的“Agent0”项目,涉及一个使用软件工具的智能体,通过自我对弈提升自身能力,与“绝对零”类似,该模型通过实验性解决问题来提高通用推理能力。Meta、伊利诺伊大学和卡内基梅隆大学的研究人员最近发表的一篇论文提出了一个在软件工程中使用类似自我对弈的系统,作者认为这代表了“迈向超级智能软件智能体训练范式的第一步”。寻找AI学习的新方法可能会成为今年科技行业的一大主题。随着传统数据来源日益稀缺和昂贵,以及实验室寻求让模型更强大的新方法,“绝对零”这类项目可能会让AI系统不再那么像模仿者,而更像人类。

标签: Qwen模型 人工智能学习 绝对零推理器 自我对弈 超级智能