多些自我反思,科研更靠谱

作者: aeks | 发布时间: 2026-04-14 16:01 | 更新时间: 2026-04-14 16:01

学科分类: 心理学 管理科学与工程 统计学 计算机科学与技术

本文综述了本周发表在《自然》杂志上的4篇论文,系统考察社会与行为科学领域研究成果的持久性,即三大核心标准:可复现性(用相同数据和方法得出相同结果)、可重复性(重新实验采集新数据仍得相同结论)和稳健性(对同一数据采用不同分析方法仍得出一致结论)。过去二十年,心理学、医学等领域频现“可重复性危机”,凸显这些标准常被忽视。其中3篇论文源自美国DARPA资助近800万美元的SCORE项目(由华盛顿特区开放科学中心执行),动员850多名研究者对2009–2018年间3900篇论文开展可靠性评估;第4篇则基于全球“重复性工作坊”网络的实践。结果显示:Tyner等研究发现,164篇论文中仅约一半的统计显著效应能被重复,且重复后的效应量平均不足原报告的一半——这种“衰减效应”可能源于作者认知偏差、不当研究操作、期刊偏爱“亮眼结果”、随机误差,或真实但高度依赖特定人群与时间的效应。Aczel等发现,100篇论文中74%的显著结论在换用其他分析方法后仍成立;Brodeur等也得出类似结论。Miske等检查600篇随机抽样论文,仅20%完整公开数据与代码;但当原始数据和代码齐全时,复现率达91%,而需靠文字描述重建数据和分析步骤时,复现率骤降至38%。Brodeur等还指出:强制要求共享代码与数据的经济学和政治学期刊,其论文可复现率已从2014年的59%稳步升至2021–2023年的近90%。文章强调,期刊政策与学界规范切实提升了研究可靠性,并提出若干改进方向:如鼓励科学家开展自我重复研究、期刊增设数据编辑岗位、引入多元分析与跨领域专家参与稳健性检验等。同时指出,未来仍需深入探索:哪些实践投入产出比最高?哪些条件最有利于可重复性与稳健性?何时开展重复研究最具价值?何种可靠性评估方式信息量最大?如何优化通用指标,使其适配不同学科、不同设计的复杂研究?这些洞见亦有望拓展至生物医学、计算机科学等领域。正如SCORE项目牵头人Brian Nosek所言:“100%可重复未必是好事——它可能意味着研究过于保守,未能探索知识前沿。”当前可重复性水平仍有明显提升空间;任何让“通往可靠结论之路”本身更可靠的方法,都将加速科学进步。回溯检验既有成果,与前瞻探索同等重要;而严谨践行这一过程,正是科学方法的生动体现。

DOI: 10.1038/d41586-026-00965-3

标签: 可重复性 数据共享 科研可信度