Anthropic推出两款新模型：专供网络安全合作伙伴的“神话”升级版，以及面向普通用户的“安全”版本

作者: aeks | 发布时间: 2026-06-10 03:01 | 更新时间: 2026-06-10 03:01

Anthropic于本周二发布两款新型AI模型——Claude Fable 5和Claude Mythos 5。其中，Mythos 5能力更强，尤其擅长自动发现软件（包括新旧系统）中的安全漏洞，但出于防范恶意滥用（如制造攻击工具、绕过防御）的考虑，目前仅向美国政府合作方及部分科技企业、精选生物学研究者等极小范围开放，并正协同美国政府推进部署。Fable 5则面向公众免费开放，底层技术与Mythos 5相同，但上线即启用多重‘安全护栏’：一旦用户提问涉及网络安全、生物学或化学等高风险领域，或疑似尝试‘模型蒸馏’（用大模型输出训练小模型），系统会自动将请求转交至能力较弱但更安全的旧模型Claude Opus 4.8处理。Anthropic坦言，当前防护机制偏向保守，可能误判正常提问；未来将通过持续优化分类器提升精准度。公司强调，此举并非长期方案，而是权衡安全与可用性的阶段性选择——既让公众尽早受益于新技术（如软件工程与视觉理解性能提升），又为行业争取时间构建更可靠的防护体系。值得注意的是，两款新模型定价较高（输入10美元/百万token，输出50美元/百万token），是现有公开模型的两倍，但低于此前Mythos Preview版本。Anthropic与OpenAI等头部公司均在谨慎推进此类高能力模型落地，背后既有技术伦理压力，也包含上市前吸引投资者的商业考量。尽管红队测试超1000小时未发现通用越狱方法，但业界对能否真正筑牢防线仍存疑虑。

标签: AI安全防护模型蒸馏网络安全风险负责任AI发布软件漏洞挖掘