Anthropic公司想阻止自家AI造核武器,这招管用吗?

作者: aeks | 发布时间: 2025-10-20 22:19 | 更新时间: 2025-10-20 22:19

学科分类: 信息与通信工程 国家安全学 核科学与技术 计算机科学与技术

Anthropic公司想阻止自家AI造核武器,这招管用吗?
Anthropic公司想阻止自家AI造核武器,这招管用吗?

制造核武器既是一门精密科学,也是一个已解决的问题。美国最先进核武器的许多信息属于绝密,但相关基础核科学已有80年历史。朝鲜的例子表明,一个一心想拥有核武器的国家无需聊天机器人的帮助也能做到。那么,美国政府究竟是如何与AI公司合作确保聊天机器人不泄露敏感核秘密的?聊天机器人起初是否真的存在帮助他人制造核武器的风险?
第一个问题的答案是:他们借助了亚马逊。第二个问题的答案则较为复杂。亚马逊网络服务(AWS)为政府客户提供绝密云服务,供其存储敏感和机密信息。美国能源部(DOE)在与安索帕(Anthropic)合作时,已经拥有多台此类服务器。
安索帕负责国家安全政策与合作的玛丽娜·法瓦罗向《连线》杂志表示:“我们在绝密环境中部署了当时最前沿的Claude版本,以便美国国家核安全管理局(NNSA)系统测试AI模型是否会制造或加剧核风险。从那以后,NNSA一直在其安全云环境中对后续的Claude模型进行红队测试,并向我们提供反馈。”
NNSA的红队测试(即测试弱点)帮助安索帕和美国核科学家为“聊天机器人辅助核计划”制定了前瞻性解决方案。法瓦罗称,双方“共同开发了一种核分类器,可以将其视为AI对话的高级过滤器。我们利用NNSA制定的核风险指标清单来构建它,其中包括特定主题和技术细节,帮助我们识别对话何时可能转向有害领域。该清单本身受控制但未加密,这一点至关重要,因为这意味着我们的技术人员和其他公司都可以实施它。”
法瓦罗表示,分类器的研发经过了数月的调整和测试。“它能捕捉到令人担忧的对话,同时不会标记关于核能或医用同位素的合法讨论。”
NNSA局长兼负责反恐和防扩散的副副部长温丁·史密斯告诉《连线》:“人工智能驱动技术的出现深刻改变了国家安全领域。NNSA在放射和核安全方面的权威专业知识,使我们能够协助部署防范这些领域潜在风险的工具,并更高效地执行任务。”
不过,NNSA和安索帕都未明确说明“这些领域的潜在风险”具体是什么,也不清楚Claude或其他聊天机器人对制造核武器究竟有多大帮助。
美国科学家联合会的AI专家奥利弗·斯蒂芬森认为:“我不否认这些担忧,它们值得认真对待。我认为当前版本的模型在大多数情况下并不十分令人担忧,但我们不知道五年后它们会发展到什么地步……对此保持谨慎是值得的。”他指出,许多信息因保密而无法获取,因此很难判断安索帕的分类器产生了什么影响。“核弹核心周围的内爆透镜设计有很多细节,需要非常精确的结构才能完美压缩核心以产生高当量爆炸……我能想象到,AI可以帮助综合大量不同的物理论文和核武器相关出版物中的信息。”他还表示,AI公司在谈论安全时应更具体:“当安索帕发布这样的内容时,我希望看到他们更详细地说明他们真正担心的风险模型。AI公司与政府合作是好事,但保密工作总是存在风险,即你需要高度信任那些决定分类器内容的人。”
AI Now研究所的首席AI科学家海蒂·赫拉夫(拥有核安全背景)则认为,安索帕声称Claude不会帮助制造核武器,这既是“魔术”也是“安全表演”。她说,像Claude这样的大型语言模型的好坏取决于其训练数据。如果Claude一开始就无法接触到核秘密,那么分类器就毫无意义。“如果NNSA测试的模型没有受过敏感核材料的训练,那么他们的结果并不能说明探测提示是全面的,只能说明该模型可能没有足够的数据或训练来展示任何核能力。基于这种非结论性结果和常见核知识来构建核‘风险指标’分类器,是远远不够的,也不符合核保障的法律和技术定义。”赫拉夫补充说,这类声明会引发对聊天机器人不具备的能力的猜测:“这项工作似乎基于一个未经证实的假设,即安索帕的模型无需进一步训练就能产生新兴的核能力,这与现有科学根本不符。”
安索帕对此表示异议。该公司发言人告诉《连线》:“我们的许多安全工作都专注于主动构建能够识别未来风险并加以缓解的安全系统,这种分类器就是一个例子。与NNSA的合作使我们能够进行适当的风险评估,并制定防止模型被滥用的保障措施。”
赫拉夫对美国政府与私人AI公司的合作也不太看好。她认为,安索帕等公司渴望训练数据,而美国政府对AI的广泛追捧为AI行业获取其他途径无法获得的数据提供了机会:“我们是否希望这些基本不受监管的私人公司接触到极其敏感的国家安全数据?无论是军事系统、核武器还是核能。”她还指出,这些都是精密科学,而大型语言模型甚至存在无法完成最基本数学运算的故障模式。1954年,一次数学错误导致美国在太平洋测试的核武器当量增加了两倍,政府至今仍在处理其后果。如果聊天机器人在核武器相关运算中出错而人类未复核,后果不堪设想。
安索帕则希望将分类器推广为行业标准:“在我们的理想世界中,这将成为一种自愿的行业标准,一种人人都采用的共享安全实践。”

标签: AI聊天机器人 安索帕公司 核分类器 核武器风险 美国国家核安全管理局