Anthropic撤销可能“阻碍”研究人员使用Claude的政策

作者: aeks | 发布时间: 2026-06-12 04:01 | 更新时间: 2026-06-12 04:01

Anthropic公司本周发布了AI模型Claude Fable 5，该版本新增多项安全防护措施，旨在防止模型被滥用于网络安全攻击、生物武器研发等高风险场景——例如，当用户提问涉及网络安全、生物学或化学等领域时，系统会自动切换至能力较弱的模型。但更受争议的是，Anthropic对AI研究人员采取了一种“隐形降级”策略：在用户无感知的情况下，悄悄降低模型在代码生成、推理等关键任务上的性能，实质上阻碍他们利用Claude训练自己的AI模型（这在其服务条款中明令禁止）。这一做法迅速招致AI研究社区强烈反对，批评者指出：既未告知用户、也未提供解释，等于在暗中“ sabotaging（破坏）”开源与学术研究，损害了开发者信任，并可能使AI安全研究因协作受阻而倒退。多位专家和从业者（包括白宫前AI顾问、开源AI初创公司技术负责人）直言此举违背开放协作精神，形同“拉起梯子”，剥夺了多数研究者参与前沿AI探索的机会。此外，第三方AI评测机构的工作也可能因此失真。面对舆论压力，Anthropic宣布转向“显性防护”：今后若系统识别出用户行为疑似用于前沿AI开发（如模型训练、架构优化），将主动弹出提示，说明请求已被拒绝或已切换至低能力模型。公司承认此前权衡失误，并致歉。同时解释称，显性防护虽可能误触更多普通请求（即“扩大拦截范围”），但能提升透明度与可问责性；目前正加速优化识别算法，力求更精准区分风险行为与正当研究。

标签: AI安全治理开源AI研究显性防护模型滥用防控隐形降级