机器人在抓取开放数据,研究人员该怎么办?
作者: aeks | 发布时间: 2026-06-10 06:04 | 更新时间: 2026-06-10 06:04
本文探讨人工智能时代开放科学面临的新挑战。调查显示,全球超过90%的开放获取仓储联盟成员机构频繁遭遇自动化爬虫抓取数据,主要目的是为AI模型提供训练数据,甚至直接生成新研究结果和论文。支持者认为开放数据能加速药物靶点发现等科研突破;反对者则指出,爬虫可能整合复杂数据集产出低质量‘AI垃圾’研究,并绕过隐私保护机制,泄露患者等敏感信息。心理学家安德里亚·霍华德强调这是所有科研人员都需正视的问题。悉尼的定量精神病理学家米莉·福布斯指出,AI驱动的自动化分析正快速耗尽单个数据集所能回答的科学问题,压缩人类研究者的探索空间。社交媒体上关于学术自由与数据控制权的讨论两极分化:有人主张‘数据一旦公开即不再属于个人’,也有人担忧被AI‘抢先发表’(scooped)而呼吁加强技术防护。更严峻的是,AI工具常不规范引用原始数据,且已有研究证实,即便经匿名化处理的访谈数据,仍可能被大语言模型反向识别出约四分之一的受访者。比利时鲁汶大学临床精神病学中心联合主任奥利维亚·柯特利强调,涉及自杀意念或自伤人群的研究数据若被滥用,可能导致参与者再识别风险、数据误用或违背知情同意原则。文章最后暗示,未来需建立更精细的‘受控访问’机制——如分级授权、使用协议与动态审计,在保持开放精神的同时筑牢伦理与安全防线。