AI审稿人来了,但我们还没准备好

作者: aeks | 发布时间: 2025-12-06 16:01 | 更新时间: 2025-12-06 16:01

学科分类: 新闻传播学 管理科学与工程 系统科学 计算机科学与技术

长期以来,预印本平台一直是传统学术出版这艘“ lumbering tanker”中的“ agile speedboat”,这种灵活性使其得以进行大胆尝试。总部位于纽约的非营利组织openRxiv(运营着bioRxiv和medRxiv知识库)的最新实验,或许是迄今为止最具争议的一次。

人工智能正在改变同行评审——许多科学家对此感到担忧

上个月,openRxiv宣布将一款由人工智能驱动的审稿工具整合到其预印本平台中。该工具来自以色列特拉维夫的初创公司q.e.d Science,能为生物医学手稿提供快速的AI生成反馈(通常在30分钟内),包括评判原创性、识别逻辑漏洞,以及建议更多实验和文本修改。

AI审稿人的吸引力毋庸置疑。对于任何曾苦等数月才等来审稿结果,或费力解读“审稿人2号”刻薄评论的科学家而言,这种算法替代方案听起来就像是出版业迫切需要的效率升级。大型语言模型(LLMs)能在几秒内给出反馈,且可能不存在利益冲突。但高效的流程和有效的流程之间存在巨大差异。随着科学界开始接纳AI技术,必须确保在解决后勤问题时,没有制造出智力问题。

同行评审有两个目的。其一,通过仔细检查统计数据、研究方法和逻辑连贯性,验证大部分常规科学工作——这些是检验预测、填补认知空白的严谨研究。其二,识别罕见的发现,即那些带来异常结果或挑战现有框架的研究,此时评估的不是规则是否被遵守,而是规则是否仍然适用。

至少在原则上,人类能够履行这两项职能。但AI可能不行。LLMs可以检查统计数据、发现抄袭和验证引文;仅此一项贡献就可能具有变革性。如果将常规工作交给计算机处理,那么人类注意力——科学界最稀缺的资源——就可以集中在最重要的事情上。但LLMs也有局限性。若超出这些“护栏”信任AI审稿人,它可能很快就会成为一种负担。

科学家在论文中隐藏信息以操纵AI同行评审

第一个问题是“趋中回归”。人类同行评审可以说是一种统计抽样过程,(通常)三位专家提供不同的数据点,编辑再努力达成共识。而AI简化了这一过程:它不是抽样,而是输出“平均审稿意见”。2024年的一项研究通过使用GPT-4生成论文评论证实,LLM非常擅长预测“平均审稿人”会说什么(W. Liang等人,《NEJM AI》,https://doi.org/g88s5h;2024)。但这远不止“求平均”那么简单。

DOI: 10.1038/d41586-025-03909-5

标签: AI同行评审 同行评审目的 大型语言模型局限性 学术出版 预印本