人类公司认为：自身成功是确保人工智能安全的关键

作者: aeks | 发布时间: 2026-06-26 12:02 | 更新时间: 2026-06-26 12:02

本文深入剖析AI公司Anthropic的内在张力：它成立五年来持续警告社会，超强AI可能带来大规模破坏、社会失稳等严重风险；与此同时，它却成为全球AI能力最强的推动者之一，开发顶尖大模型（如Claude系列），积极服务美国军方与情报机构，并获近1万亿美元估值。表面看，其警示与行动自相矛盾，但公司内部并不视其为矛盾——核心逻辑基于两大信念：第一，AI是人类史上最具变革性的技术，其到来不可避免，关键在于导向灾难还是繁荣；第二，唯有自身始终站在AI技术最前沿（掌握算力、资本、人才与政策影响力），才能实质性引导行业安全发展。公司自认是‘好人’，即负责任的技术 steward（守护者），将商业与技术实力视为履行使命的必要代价，而非目的本身。其理念被类比为‘深入充满宝藏与怪兽的森林’：别人争抢宝藏，它则率先闯入并全力驯服怪兽（即平衡AI收益与风险）。创始人强调，这不是逐利企业，而是以‘人类长期福祉’为最高使命的公益型组织，盈利和强大模型都是实现该使命的手段。然而，这种高度统一的使命感也带来隐患：内部虽有辩论文化，但批评常限于私下，高层决策近乎不容置疑；员工普遍信任CEO阿莫迪（Dario Amodei）的坦诚，却缺乏外部视角制衡。当Anthropic成为首家与Palantir合作向美国国防情报部门提供AI服务的公司时，内部质疑未改变决策；此后其模型Claude被用于中东冲突中的目标识别，甚至牵涉造成百余人死亡的空袭事件，而CEO仅称‘只要最终由人决定，即属合规’——凸显其‘责任标准’与公众期待的巨大落差。另一次争议是，公司曾秘密植入反前沿研究的‘暗桩式’防护机制（阻止他人用Claude研发更先进AI），遭学界强烈反对后被迫改为公开提示。阿莫迪本人也承认AI权力过度集中于少数实验室（包括自家）的风险，但提出的对策（如自我承诺、接受监督）并未触及权力再分配本质。文章指出，Anthropic的根本困境在于：它坚信自己比他人更清楚‘人类处境的真相’，并将AI视为可被‘正确之人’驾驭的强大力量；但事实是，无人能预知AI如何重塑世界，而Anthropic正凭借实力获得更多定义未来的发言权。

标签: 人工智能安全负责任创新