多些自我反思，科研更靠谱

作者: aeks | 发布时间: 2026-04-14 16:01 | 更新时间: 2026-04-14 16:01

本文综述了本周发表在《自然》杂志上的4篇论文，系统考察社会与行为科学领域研究成果的持久性，即三大核心标准：可复现性（用相同数据和方法得出相同结果）、可重复性（重新实验采集新数据仍得相同结论）和稳健性（对同一数据采用不同分析方法仍得出一致结论）。过去二十年，心理学、医学等领域频现“可重复性危机”，凸显这些标准常被忽视。其中3篇论文源自美国DARPA资助近800万美元的SCORE项目（由华盛顿特区开放科学中心执行），动员850多名研究者对2009–2018年间3900篇论文开展可靠性评估；第4篇则基于全球“重复性工作坊”网络的实践。结果显示：Tyner等研究发现，164篇论文中仅约一半的统计显著效应能被重复，且重复后的效应量平均不足原报告的一半——这种“衰减效应”可能源于作者认知偏差、不当研究操作、期刊偏爱“亮眼结果”、随机误差，或真实但高度依赖特定人群与时间的效应。Aczel等发现，100篇论文中74%的显著结论在换用其他分析方法后仍成立；Brodeur等也得出类似结论。Miske等检查600篇随机抽样论文，仅20%完整公开数据与代码；但当原始数据和代码齐全时，复现率达91%，而需靠文字描述重建数据和分析步骤时，复现率骤降至38%。Brodeur等还指出：强制要求共享代码与数据的经济学和政治学期刊，其论文可复现率已从2014年的59%稳步升至2021–2023年的近90%。文章强调，期刊政策与学界规范切实提升了研究可靠性，并提出若干改进方向：如鼓励科学家开展自我重复研究、期刊增设数据编辑岗位、引入多元分析与跨领域专家参与稳健性检验等。同时指出，未来仍需深入探索：哪些实践投入产出比最高？哪些条件最有利于可重复性与稳健性？何时开展重复研究最具价值？何种可靠性评估方式信息量最大？如何优化通用指标，使其适配不同学科、不同设计的复杂研究？这些洞见亦有望拓展至生物医学、计算机科学等领域。正如SCORE项目牵头人Brian Nosek所言：“100%可重复未必是好事——它可能意味着研究过于保守，未能探索知识前沿。”当前可重复性水平仍有明显提升空间；任何让“通往可靠结论之路”本身更可靠的方法，都将加速科学进步。回溯检验既有成果，与前瞻探索同等重要；而严谨践行这一过程，正是科学方法的生动体现。

DOI: 10.1038/d41586-026-00965-3

标签: 可重复性数据共享科研可信度