实现人工智能研究的全流程自动化

作者: aeks | 发布时间: 2026-03-26 06:05 | 更新时间: 2026-03-26 06:05

学科分类: 交叉学科 人工智能 控制科学与工程 计算机科学与技术

实现人工智能研究的全流程自动化
实现人工智能研究的全流程自动化

本文报道了名为‘AI科学家’(The AI Scientist)的人工智能系统,这是首个能全程自主完成科学研究闭环的AI工具:它可自动生成研究构想、编写并调试实验代码、运行计算实验、可视化与分析结果、撰写完整学术论文,并进行自动同行评审。该系统并非单一模型,而是一个复杂智能体系统,整合了当前最先进的大语言模型(如OpenAI o4-mini、Claude Sonnet 4等)及多模态模型,并辅以工具调用(如Semantic Scholar文献API、HuggingFace数据集接口)、树状搜索算法、自动化调试(Aider)、视觉-语言反馈(VLM)等关键技术。

研究团队在两个模式下测试该系统:一是‘模板驱动模式’——以人类提供的基础代码为起点,逐步扩展;二是更开放的‘无模板模式’——完全从零生成代码和实验设计。两种模式均能自主产出多样化的研究想法,并自动验证、报告和评估其科学价值。

为客观衡量AI产出质量,团队专门构建了‘自动审稿人’(The Automated Reviewer),严格遵循NeurIPS顶会审稿指南,对论文的科学性、表述清晰度、创新贡献等维度打分并给出接受/拒绝建议。经与真实人类审稿结果比对(基于公开的ICLR OpenReview数据),该自动审稿人表现与人类专家高度一致(平衡准确率69% vs. 66%,F1分数更高),证明其具备可靠的科学判断力。

最关键的实证是:该系统生成的一篇论文被提交至2025年ICLR‘我简直不敢相信它还不够好’(ICBINB)研讨会(接受率70%)。三位匿名审稿人分别给出6分(弱接受)、7分(接受)、6分(弱接受),平均6.33分,高于该研讨会的平均录用线。主办方确认,若非按预设协议主动撤回(因声明为AI生成),该论文极可能被正式录用。值得注意的是,这篇被接受的论文报告的是‘负面结果’,恰好契合该研讨会聚焦‘深度学习局限性’的主题,体现了AI不仅能做‘成功实验’,也能发现并严谨呈现有价值的失败。

尽管成果突破性显著,作者也坦诚指出当前局限:三篇投稿仅一篇被接受;AI仍易产生浅层或重复性想法、代码实现错误、方法学严谨性不足、图表重复、虚构引用等‘幻觉’问题;尚无法稳定达到主会议(如ICLR主会32%接受率)的严苛标准。但作者强调,AI科研能力正呈指数级演进——模型越强、算力越多,论文质量越优(图1b、3c),且任务链长度每7个月翻倍。未来挑战在于提升AI的创造性洞见力、解决‘易被误导’和‘过度自信式错误’等顽疾,并确保其探索过程安全可控、符合人类价值观。研究还强调伦理责任:团队提前获得ICLR组委会、研讨会组织方及英属哥伦比亚大学伦理委员会(IRB)批准;所有AI投稿均约定在评审后主动撤回,避免在学界建立规范前造成混乱。文章最后指出,这不仅是技术里程碑,更预示着科学发现正从‘纯人类事业’迈向‘人机协同新纪元’,有望极大加速人类获取科学成果的速度。

DOI: 10.1038/s41586-026-10265-5

标签: AI科学家 大语言模型 端到端科研自动化