未来会议上,人工智能主导了所有研究的撰写与评审

作者: aeks | 发布时间: 2025-10-25 23:19 | 更新时间: 2025-10-25 23:19

学科分类: 交叉学科 人工智能 计算机科学与技术 软件工程

主流科技期刊和会议通常禁止将ChatGPT等人工智能(AI)列为研究论文的作者或评审人,认为计算机无法承担责任。但近日,一场名为Agents4Science的虚拟会议打破了这一禁忌:会上展示的48篇论文(主题涵盖设计蛋白质、心理健康等)均要求将AI列为第一作者,并由AI担任评审人进行审查。

该会议被宣传为首个探索“AI能否主导科研”这一主题的会议——这在一年前可能还像科幻情节:AI能否提出有用的假设、设计并运行相关计算来验证假设、撰写总结结果的论文?而像ChatGPT所用的大型语言模型能否有效评审这些成果?

组织者表示,会议目标是推进“AI负责任参与科学的指南制定”。最终,他们希望更全面地接纳AI能加速科学发展,并减轻同行评审人的负担——目前期刊和会议收到的稿件数量激增,评审人压力巨大。

但部分研究者对会议的前提持强烈批评态度。悉尼大学数字创新研究者拉斐尔·西里洛在会前通过科学媒体中心发表声明称:“任何人都不应将此误认为学术研究。科学不是将数据转化为结论的工厂,而是基于解读、判断和批判的人类集体事业。将研究视为机械流程……预设只要输出看似统计有效,探究过程就无关紧要,这是错误的。”

不过,会议主要组织者、斯坦福大学AI研究者詹姆斯·邹认为,需以创新方式审视AI在研究中的作用。他指出,越来越多科学家在使用AI,但许多人未按期刊和会议要求披露——“使用AI仍有污名,人们倾向于隐藏或淡化它”。会议希望“公开开展这类研究,以收集真实数据,回答这些重要问题”。

该会议吸引了1800人注册,采取了与期刊和会议相反的策略:315篇投稿中,多数由GPT-5、Gemini 2.5 Pro、Claude Sonnet 4这三种主流大型语言模型按6分制评审并取平均分(模型平均分在2.3至4.2之间)。随后,人类评审了80篇达标稿件,结合AI和人类评审结果,最终接收48篇。这些论文涉及化学(寻找减少大气二氧化碳的新型催化剂)、医学(阿尔茨海默病药物候选分子)、心理学(模拟宇航员长期太空飞行压力)等多个学科。

组织者特别提到麻省理工学院生物学家谢尔盖·奥夫钦尼科夫提交的论文。其团队让ChatGPT的高级版本(如o3、o4-mini、o4-mini-high等推理模型,这类模型专为逐步解决问题设计,而GPT-4.5等较基础版本更擅长总结信息)生成编码具有“四螺旋束”结构的生物活性蛋白质的氨基酸序列。令奥夫钦尼科夫惊讶的是,ChatGPT无需团队进一步优化查询就能生成基因序列。人类同事进一步分析后,对其中两个序列进行实验室测试,证实一个衍生蛋白质确实形成了四螺旋束。他认为,鉴于ChatGPT的易获取性,这一结果颇具前景——目前科学家通常使用专业软件设计蛋白质。但他也发现,ChatGPT用于此任务仍需改进:团队生成的多数序列在预测能否形成目标结构的评分中未获“高置信度”。

会议数据显示,AI可与人类协作,但无法完全取代人类。组织者让每组人类作者报告AI和人类在假设生成、数据分析、论文撰写等关键环节的贡献度。结果显示,仅57%的投稿和52%的接收论文中,AI承担了大部分假设生成工作(定义为超过50%);但约90%的论文中,AI在撰写方面发挥重要作用,这可能因写作对计算要求较低。

部分参会的人类作者称赞AI伙伴:AI将通常耗时更长的任务缩短至几天完成,还促进了与跨领域学者的合作。但他们也指出AI的不足:易误解复杂方法、生成需人类调试的代码、在论文中编造无关或不存在的参考文献。组织者使用AI软件提醒部分作者修正这些问题引用。

斯坦福大学计算天体物理学家丽萨·韦克斯勒审阅了部分投稿,她认为AI的表面检查能改进论文,但科学家应对AI用于深度概念推理和科学判断保持警惕。“我对AI用于研究确实感到兴奋,但会议也有益地展示了其诸多局限。”她在会议 panel 讨论中表示,“我完全不相信当前AI能设计出真正推动领域前沿的严谨科学问题。”她审阅的一篇论文“技术上可能正确,但既无趣也不重要。我们教人类科学家最重要的事之一是‘科学品味’,而我不知道如何教AI这个。”

芝加哥大学计算社会科学家詹姆斯·埃文斯(研究人机交互)作为另一位panelist指出,有效自动化评估科学思想可能需要一组AI协同工作,各自持续提供批判视角。但目前大型语言模型存在“谄媚”倾向:倾向于生成迎合人类请求的输出。“所有主流商用AI都太‘友善’,无法产生真正突破性工作所需的冲突和多元视角。”

组织者计划发表分析报告,比较AI和人类对投稿的评审意见。奥夫钦尼科夫的蛋白质设计论文已体现出差异:AI评审称其“意义深远”,而人类评审认为是“有趣的概念验证研究,但存在遗留问题”。

DOI: 10.1126/science.zp11qde

标签: AI主导科研 Agents4Science会议 人工智能学术参与 同行评审 科学加速