实现人工智能研究的全流程自动化

作者: aeks | 发布时间: 2026-03-26 06:05 | 更新时间: 2026-03-26 06:05

实现人工智能研究的全流程自动化

本文报道了名为‘AI科学家’（The AI Scientist）的人工智能系统，这是首个能全程自主完成科学研究闭环的AI工具：它可自动生成研究构想、编写并调试实验代码、运行计算实验、可视化与分析结果、撰写完整学术论文，并进行自动同行评审。该系统并非单一模型，而是一个复杂智能体系统，整合了当前最先进的大语言模型（如OpenAI o4-mini、Claude Sonnet 4等）及多模态模型，并辅以工具调用（如Semantic Scholar文献API、HuggingFace数据集接口）、树状搜索算法、自动化调试（Aider）、视觉-语言反馈（VLM）等关键技术。

研究团队在两个模式下测试该系统：一是‘模板驱动模式’——以人类提供的基础代码为起点，逐步扩展；二是更开放的‘无模板模式’——完全从零生成代码和实验设计。两种模式均能自主产出多样化的研究想法，并自动验证、报告和评估其科学价值。

为客观衡量AI产出质量，团队专门构建了‘自动审稿人’（The Automated Reviewer），严格遵循NeurIPS顶会审稿指南，对论文的科学性、表述清晰度、创新贡献等维度打分并给出接受/拒绝建议。经与真实人类审稿结果比对（基于公开的ICLR OpenReview数据），该自动审稿人表现与人类专家高度一致（平衡准确率69% vs. 66%，F1分数更高），证明其具备可靠的科学判断力。

最关键的实证是：该系统生成的一篇论文被提交至2025年ICLR‘我简直不敢相信它还不够好’（ICBINB）研讨会（接受率70%）。三位匿名审稿人分别给出6分（弱接受）、7分（接受）、6分（弱接受），平均6.33分，高于该研讨会的平均录用线。主办方确认，若非按预设协议主动撤回（因声明为AI生成），该论文极可能被正式录用。值得注意的是，这篇被接受的论文报告的是‘负面结果’，恰好契合该研讨会聚焦‘深度学习局限性’的主题，体现了AI不仅能做‘成功实验’，也能发现并严谨呈现有价值的失败。

尽管成果突破性显著，作者也坦诚指出当前局限：三篇投稿仅一篇被接受；AI仍易产生浅层或重复性想法、代码实现错误、方法学严谨性不足、图表重复、虚构引用等‘幻觉’问题；尚无法稳定达到主会议（如ICLR主会32%接受率）的严苛标准。但作者强调，AI科研能力正呈指数级演进——模型越强、算力越多，论文质量越优（图1b、3c），且任务链长度每7个月翻倍。未来挑战在于提升AI的创造性洞见力、解决‘易被误导’和‘过度自信式错误’等顽疾，并确保其探索过程安全可控、符合人类价值观。研究还强调伦理责任：团队提前获得ICLR组委会、研讨会组织方及英属哥伦比亚大学伦理委员会（IRB）批准；所有AI投稿均约定在评审后主动撤回，避免在学界建立规范前造成混乱。文章最后指出，这不仅是技术里程碑，更预示着科学发现正从‘纯人类事业’迈向‘人机协同新纪元’，有望极大加速人类获取科学成果的速度。

DOI: 10.1038/s41586-026-10265-5

标签: AI科学家大语言模型端到端科研自动化