机器人在抓取开放数据，研究人员该怎么办？

作者: aeks | 发布时间: 2026-06-10 06:04 | 更新时间: 2026-06-10 06:04

本文探讨人工智能时代开放科学面临的新挑战。调查显示，全球超过90%的开放获取仓储联盟成员机构频繁遭遇自动化爬虫抓取数据，主要目的是为AI模型提供训练数据，甚至直接生成新研究结果和论文。支持者认为开放数据能加速药物靶点发现等科研突破；反对者则指出，爬虫可能整合复杂数据集产出低质量‘AI垃圾’研究，并绕过隐私保护机制，泄露患者等敏感信息。心理学家安德里亚·霍华德强调这是所有科研人员都需正视的问题。悉尼的定量精神病理学家米莉·福布斯指出，AI驱动的自动化分析正快速耗尽单个数据集所能回答的科学问题，压缩人类研究者的探索空间。社交媒体上关于学术自由与数据控制权的讨论两极分化：有人主张‘数据一旦公开即不再属于个人’，也有人担忧被AI‘抢先发表’（scooped）而呼吁加强技术防护。更严峻的是，AI工具常不规范引用原始数据，且已有研究证实，即便经匿名化处理的访谈数据，仍可能被大语言模型反向识别出约四分之一的受访者。比利时鲁汶大学临床精神病学中心联合主任奥利维亚·柯特利强调，涉及自杀意念或自伤人群的研究数据若被滥用，可能导致参与者再识别风险、数据误用或违背知情同意原则。文章最后暗示，未来需建立更精细的‘受控访问’机制——如分级授权、使用协议与动态审计，在保持开放精神的同时筑牢伦理与安全防线。

DOI: 10.1038/d41586-026-01689-0

标签: 人工智能伦理开放数据数据隐私