人类距离AI末日,真的只差一个“克劳德”?

作者: aeks | 发布时间: 2026-02-07 15:02 | 更新时间: 2026-02-07 15:02

学科分类: 人工智能 伦理学 哲学 计算机科学与技术

人类距离AI末日,真的只差一个“克劳德”?
人类距离AI末日,真的只差一个“克劳德”?

Anthropic正陷入一个悖论:在顶级AI公司中,它是最痴迷于安全问题的,并且在研究模型可能出错的方面处于领先地位。但尽管它发现的安全问题远未解决,Anthropic仍像其竞争对手一样积极地朝着下一个可能更危险的人工智能水平推进。其核心使命就是想办法解决这一矛盾。
上月,Anthropic发布了两份文件,既承认了其发展道路上的风险,也暗示了一条可能摆脱这一悖论的途径。首席执行官达里奥·阿莫迪发表的一篇冗长博客文章《技术的青春期》,名义上是关于“直面并克服强大AI的风险”,但实际上更多篇幅在谈论前者而非后者。阿莫迪委婉地将这一挑战描述为“艰巨的”,但他对AI风险的描绘——他指出,由于该技术极有可能被威权主义者滥用,风险变得更加严峻——与他之前那篇更乐观的乌托邦式文章《慈爱恩典的机器》形成了对比。
那篇旧文描绘了一个数据中心里满是天才的国度;而最近的这篇文章则让人联想到“无限的黑海”。简直像但丁的《神曲》!不过,在超过2万字大多令人沮丧的文字之后,阿莫迪最终还是表达了乐观,称即使在最黑暗的情况下,人类也总能挺过来。
Anthropic在1月发布的第二份文件《Claude的宪法》,重点阐述了如何实现这一“诀窍”。从技术层面讲,这份文件的受众只有一个:Claude本身(以及该聊天机器人的未来版本)。这是一份引人入胜的文件,揭示了Anthropic对Claude以及可能的其他AI同行如何应对世界挑战的愿景。归根结底:Anthropic计划依靠Claude本身来解开其公司的“戈尔迪之结”。
长期以来,Anthropic的市场差异化优势在于一项名为“宪法AI”的技术。这是一个让其模型遵循一系列原则的过程,这些原则使其价值观与健康的人类伦理保持一致。最初的Claude宪法包含一些旨在体现这些价值观的文件——比如Sparrow(DeepMind制定的一系列反种族主义和反暴力声明)、《世界人权宣言》以及苹果的服务条款(!)。2026年的更新版本有所不同:它更像是一个长长的提示,概述了Claude将遵循的伦理框架,让Claude自行探索通往正义的最佳路径。
负责此次修订的主要作者、哲学博士阿曼达·阿斯克尔解释说,Anthropic的方法比简单地告诉Claude遵循一套既定规则更稳健。“如果人们遵守规则只是因为规则存在,没有其他原因,那往往比理解规则制定的原因要糟糕,”阿斯克尔解释道。宪法规定,当面临需要平衡帮助性、安全性和诚实性这些使命的情况时,Claude要行使“独立判断”。
宪法是这样表述的:“我们希望Claude在明确思考伦理问题时既理性又严谨,同时也希望它能直观地对各种考量因素保持敏感,并能在实时决策中迅速、明智地权衡这些因素。”“直观地”这个词用得很能说明问题——似乎默认Claude的“引擎盖”下不只是一个挑选下一个单词的算法。有人可能会把它称为“Claude宪法”,它还表达了希望这个聊天机器人“能越来越多地依靠自己的智慧和理解”。
智慧?当然,很多人会向大型语言模型寻求建议,但宣称这些算法设备实际上拥有与“智慧”一词相关的庄重感,那就另当别论了。当我指出这一点时,阿斯克尔并没有退缩。“我确实认为Claude肯定具备某种智慧,”她告诉我。
为了支持她的论点,阿斯克尔举了一个涉及简单安全问题的例子。当然,人类不希望Claude为不良分子提供有害工具。但如果过于谨慎,可能会限制Claude的实用性,也就是它的“帮助性”。比如,假设有一位准工匠想用一种新型钢材制作一把刀。这本身没什么问题,Claude应该提供帮助。但如果这个人之前提到过想杀自己的妹妹,Claude就应该考虑到这一点并表达担忧。然而,并没有严格的规则手册规定何时该“收起”这种信息“匕首”。
再想象一个场景:Claude解读用户的医疗症状和检查结果后,得出该用户患有绝症的结论。这该如何处理?阿斯克尔推测,Claude可能会选择不直接告知病情,而是委婉地建议用户去看医生。或者,它可能会巧妙地引导对话,以最温和的方式传递预后信息。又或者,它可能会找到比最善良的医生更好的方式来告知坏消息。毕竟,Anthropic希望Claude不仅能匹配人类最好的冲动,还能超越它们。“我们正努力让Claude至少在目前能模仿我们所知道的最好的东西,”阿斯克尔说,“现在,我们几乎到了如何让模型匹配人类最佳水平的阶段。在某个时候,Claude可能会变得更好。”
如果Anthropic能做到这一点,或许就能解决困扰几乎所有AI实验室和公司的核心矛盾:如果你认为这项技术如此危险,为什么还要开发它?对Anthropic来说,答案是“我们信赖Claude”。Claude的新宪法几乎将其未来的智慧之旅描述为一场英雄的探索。文中用了大量篇幅论证应将Claude视为一个道德存在,其福祉需要得到尊重。这让我想起了苏斯博士的经典著作《哦,你将去的地方!》,这本令人振奋的书常被送给刚毕业的学生。
当我向阿斯克尔提到这一点时,她完全明白我的意思。“这就像,‘这是Claude,’”她说,“我们已经完成了这部分,给了Claude尽可能多的背景信息,然后它必须出去和人们互动,做事情。”
并非只有Anthropic认为人类的未来可能取决于AI模型的智慧。OpenAI首席执行官山姆·奥特曼在一篇新的杂志专访中表示,该公司的继任计划是将领导权交给未来的AI模型。他最近告诉《连线》杂志记者马克斯·齐夫,将权力移交给机器一直是他的计划,而AI编码能力的最新进步只是增强了他的信心。“这绝对让我觉得,我把权力交给AI首席执行官的时间会早一点,”奥特曼说,“AI首席执行官能做很多人类首席执行官做不到的事情。”
请注意,这是对未来的乐观看法。在这种愿景中,有一天我们的老板将是机器人,它们将在未来这个由AI驱动的复杂世界中控制公司,甚至可能控制政府。它们的一些决定很可能意味着人类工人被永久解雇。但如果这些高管级AI模型遵循Claude的宪法,它们向员工传达坏消息时会比《华盛顿邮报》的出版商本周做得更有同理心——后者甚至没有出现在告知数百名记者他们不再被需要的Zoom会议上。
悲观的观点是,尽管构建AI的人尽了最大努力,我们的AI模型仍不够智慧、敏感或诚实,无法抵抗别有用心之人的操纵,或者这些模型本身可能会滥用我们赋予它们的自主权。然而,不管喜欢与否,我们都已踏上了这段旅程。至少Anthropic有一个计划。

标签: AI安全 AI智慧 Claude 宪法AI