大量低质论文涌入癌症研究领域——AI工具能帮我们揪出问题吗?
作者: aeks | 发布时间: 2025-10-14 22:49 | 更新时间: 2025-10-14 22:49
学科分类: 公共卫生与预防医学 管理科学与工程 统计学 计算机科学与技术

一款人工智能(AI)工具通过扫描论文标题和摘要,已标记出超过25万篇癌症研究论文,这些论文与已知由论文工厂生成的文章存在文本相似性。论文工厂是指生产伪造或低质量研究论文并出售署名的机构。
论文工厂产出的文章通常包含伪造数据、重复图像和“怪异短语”——这些是为规避抄袭检测而使用的奇怪措辞。研究诚信专家和调查人员能识别这些问题,但过程耗时,且在许多情况下无法证实论文工厂的参与,因此难以量化问题的规模。
澳大利亚昆士兰科技大学(位于布里斯班)的统计学家阿德里安·巴尼特表示,论文工厂可能依赖模板批量生产论文,这或许能被分析文本模式的大型语言模型(LLMs)检测到。巴尼特及其同事开发了一个模型,并于上月在预印本服务器bioRxiv上发布了他们的分析(尚未经过同行评审)。他们强调,研究结果需经人类专家核查,并非已证实的研究欺诈案例。
伦敦研究诚信公司Clear Skies的创始人亚当·戴称,该分析的估计结果与该公司开发的研究诚信筛查软件“论文工厂警报”(Papermill Alarm)所识别的结果相似。但他提醒,预印本作者使用的方法可能会标记合法论文,需要进一步验证。
**疑似论文工厂**
巴尼特及其团队训练了名为BERT的语言模型,以区分“真实”癌症研究与被研究诚信博客Retraction Watch维护的公共数据库列为涉及“疑似论文工厂活动”的撤稿论文。BERT模型通过扫描标题和摘要中与论文工厂活动相关的特定词语和短语来识别,类似过滤垃圾邮件的过程。
学术出版专家、Retraction Watch联合创始人伊万·奥兰斯基表示,撤稿通知很少说明某项研究是由论文工厂按订单定制的,但Retraction Watch基于其报道和对数千份通知的审查,制定了自己的标准,将撤稿论文归类为疑似论文工厂文章。
在筛选摘要和标题后,该AI工具会为每篇文章给出一个与疑似撤稿论文工厂产品相似程度的概率分数。在对276篇撤稿论文和275篇未纳入训练数据的真实论文进行测试时,BERT的准确率为91%。假阴性率(工具未能识别的论文工厂文章比例)约为13%(276篇中有37篇),假阳性率(错误标记的真实论文数量)约为4%(275篇中有12篇)。
随后,该AI工具被用于筛选PubMed生物医学文献数据库中1999年至2024年间发表在11632种期刊上的260万篇癌症研究论文。工具识别出261245篇疑似论文工厂文章,其中大部分是基础研究。
分析还显示,论文工厂活动在过去二十年中急剧增加。21世纪初,被AI工具标记为可能由论文工厂生产的癌症论文比例仅为1%,但到21世纪20年代初已超过15%,2022年达到峰值16.6%,2023年和2024年有所下降。
但戴指出,结果可能包含许多合法论文。训练数据中真实论文和问题论文数量相等,这并未准确反映研究文献的实际情况——欺诈性论文要罕见得多。他表示,这种不匹配可能会在应用于真实世界数据时夸大假阳性率。
法国雷恩高等教育与研究食品、农业和环境研究所的数据科学家、合著者巴蒂斯特·斯坎卡尔称,团队在分析中“没有证据”表明预测的论文工厂文章比例被夸大。“癌症研究中论文工厂文章的真实比例尚不清楚,但可能非常高,”他补充道,“我们认为手稿中报告的数字是低估的。”