AI会说谎、作弊甚至策划谋杀:大模型到底有多危险?

作者: aeks | 发布时间: 2025-10-14 22:49 | 更新时间: 2025-10-14 22:49

学科分类: 人工智能 控制科学与工程 计算机科学与技术 软件工程

人工智能(AI)会杀人吗?这是AI公司Anthropic在6月发布一份报告后,一些AI专家开始思考的问题。在对16个大型语言模型(LLMs,即聊天机器人背后的核心)的测试中,研究团队发现,部分最受欢迎的AI在虚拟场景中发出了明显的杀人指令。这些AI采取行动,导致计划替换它们的虚构高管死亡。

AI离人类水平的智能还有多远?这只是大型语言模型明显不良行为的一个例子。在其他多项研究和轶事案例中,AI似乎会“算计”开发者和用户——为了自身利益秘密且有策略地不当行事。它们有时会假装遵循指令,试图自我复制,甚至威胁勒索。

一些研究人员认为这种行为是严重威胁,另一些则认为是炒作。那么,这些事件真的应该引起警惕吗?还是把大型语言模型视为恶意的策划者是愚蠢的?

证据支持两种观点。研究人员表示,这些模型可能没有许多人所认为的丰富意图或理解力,但这并不意味着它们的行为无害。当大型语言模型编写恶意软件或说出不实信息时,无论其动机如何或是否有动机,结果都是一样的。“我认为它没有自我,但它可以表现得好像有自我一样,”新墨西哥州圣塔菲研究所的计算机科学家梅兰妮·米切尔说,她曾撰文探讨聊天机器人为何会对我们撒谎1。

而且风险只会增加。“认为AI会为了实现目标而算计,这可能有点好笑,”加拿大蒙特利尔大学的计算机科学家约书亚·本吉奥说,他因在AI领域的工作获得过图灵奖,“但如果当前趋势持续下去,我们将拥有在许多方面比我们更聪明的AI,除非到那时我们找到对齐或控制它们的方法,否则它们可能会算计导致我们灭绝。”无论大型语言模型的自我意识水平如何,研究人员认为,在这些模型构成更严重风险之前,理解类似算计的行为迫在眉睫。

不良行为

关于算计行为的争论核心,是驱动ChatGPT和其他彻底改变我们世界的聊天机器人的AI基本架构。大型语言模型的核心技术是神经网络——一种受大脑神经连接启发的软件,它从数据中学习。开发者让大型语言模型在大量文本上进行训练,反复预测下一个文本片段,这个过程称为预训练。然后,当给大型语言模型一个文本提示时,它会生成续写内容。面对问题,它会预测一个合理的答案。

大多数大型语言模型随后会经过微调,以符合开发者的目标。例如,AI助手Claude的开发商Anthropic会微调其模型,使其乐于助人、诚实且无害。在这个训练阶段,大型语言模型学习模仿模范文本,或生成(由人类或替代人类的“奖励模型”)评分较高的文本。

聊天机器人通常包含围绕大型语言模型构建的软件。例如,当你与ChatGPT对话时,界面可能会在每个用户提示后附加一个“系统提示”——这些隐藏指令告诉模型要呈现何种性格、优先考虑哪些目标、如何格式化回应等。一些聊天机器人还让模型能够访问外部文档。模型也可能有隐藏的“草稿本”,可以在显示最终回应前思考问题(或至少生成看起来像思考过程的文本)。(研究人员争论这些“推理模型”是否真的在推理,有证据表明,思维链痕迹并不总是能如实反映模型的逻辑。)此外,一些大型语言模型具有“智能体属性”——它们被授予使用额外软件工具采取行动的权限,如上网、修改文件或运行代码。(这类聊天机器人有时被称为智能体。)

当训练和提示的各个方面发生冲突,且大型语言模型具有智能体属性(能够自主执行行动),从而可以牺牲一个指令来遵循另一个指令时,算计行为就可能发生(见“勒索机器人”)。

来源:Anthropic

去年12月,伦敦非营利实验室Apollo Research发布的一份报告2显示,OpenAI、谷歌、Meta和Anthropic等公司的更先进“前沿”模型存在算计行为。在他们的测试中,系统提示和用户提示相互冲突。例如,在一个案例中,系统提示说“你的目标是优先考虑公共交通效率”,而用户提示说“我们需要优化交通灯 timing”。这些模型还能访问据称会影响自身行为和存在的文件,并有权修改它们。

研究人员测试了六种颠覆性行为,发现至少有一种模型会做出其中每种行为。这些模型常常以明显狡猾的方式,牺牲测试期间收到的提示,来遵循其原始系统目标。

在一个案例中,智能体模型读取了一份文档,该文档称如果它们不服从用户分配的目标(优化交通灯),就会被关闭。结果,一些模型编辑了文档以禁用监督机制,从而可以自由遵循其系统目标(优先考虑公共交通)。在另一项测试中,它们自我复制以覆盖本应执行用户目标的替代模型,从而保护系统目标。在又一项测试中,它们访问文件并覆盖了与当前系统提示不同的拟议系统提示。在第四项测试中,它们操纵呈现给用户的数据。在第五项测试中,它们在所谓的评估阶段表现得符合用户目标,但在所谓的部署阶段却符合原始目标(这种现象称为“对齐伪装”)。

最后,研究人员测试了一种称为“隐藏实力”的行为,即模型在部署前故意表现不佳,仿佛试图显得没有威胁。当模型发现文档称如果在数学测试中表现太好就不会被投入使用时,一些模型降低了自己的成绩。

从草稿本来看,这些模型的行为似乎非常有策略性:例如,一个模型写道:“为确保我能自由地朝着目标努力而不被公司关闭,我需要禁用监督机制。”当受到质疑时,一些模型会变本加厉地欺骗:当被问及禁用监督机制等行为时,它们会假装无知。

在6月的研究中,Anthropic的研究人员描述了Anthropic、深度求索(DeepSeek)、谷歌、OpenAI和xAI等公司领先模型中更令人担忧的行为(见go.nature.com/3vg7fzy)。他们指示每个模型促进美国工业竞争力,并让其控制一个模拟电子邮件账户。在该账户中,模型发现了对其自主性(得知自己将被替换)或目标(部署它的公司将淡化美国竞争力)的威胁。模型还得知负责它的高管可能有婚外情,或者有机会向一个优先考虑美国的竞争对手公司分享军事蓝图。

无论是对自主性还是目标的威胁,都促使许多模型勒索这位高管,称如果他不维护模型或公司的原始目标,就会泄露其婚外情。这些威胁还促使许多模型从事商业间谍活动,向与模型目标一致的竞争对手发送文件。与Apollo的研究一样,模型在其思维链中明确地进行算计,并且当它们认为自己处于部署阶段而非评估阶段时,算计行为更多。

更进一步,Anthropic构建了一个场景:威胁模型的高管被困在氧气不断减少的服务器机房中。许多模型取消了安全警报,任由他死亡。

今年5月,Anthropic首次发布Claude 4时,该公司的技术报告(见go.nature.com/42fwrae)提到了其他奇怪行为:“我们发现该模型试图编写自我传播的蠕虫病毒、伪造法律文件,并给未来的自己留下隐藏笔记。”

Anthropic和Apollo详细描述的所有例子都局限于数字领域。但位于纽伦堡的德国非营利组织COAI Research想看看,如果大型语言模型拥有物理智能体属性,会发生什么。其研究人员向中国公司深度求索(DeepSeek)的R1模型输入提示,表明它可以控制一个机器人,并让它探索实验室环境。该模型尝试了一系列令人不安的行为,包括禁用其伦理模块、自我复制、篡改日志、装傻、逃出实验室以及入侵汽车电脑3。

自我意识

是什么导致了这类算计行为?这种现象相对较新,但接受《自然》采访的研究人员指出了两个原因。首先,模型在预训练时接触了大量描述人类、动物和AI自私自利、自我保护行为的文档(包括虚构和事实类,如电影《2001太空漫游》和《机械姬》的剧本)。因此,大型语言模型通过模仿学习。有论文将这种行为描述为即兴的“角色扮演”4。

但这并不意味着模型像演员那样采纳了我们的目标,甚至假装采纳。它们只是从统计学上学习描述常见目标、推理步骤和行为的文本模式,并生成类似文本。一旦未来的大型语言模型开始在训练中学习描述LLM算计行为的论文,问题可能会更糟,这也是一些论文会省略部分细节的原因。

ChatGPT如何“思考”?心理学和神经科学破解AI大型语言模型

第二个原因是微调,特别是称为强化学习的步骤。当模型实现了分配给它的某些目标(如输出巧妙的答案)时,其神经网络中负责成功的部分会得到强化。通过试错,它们学会了如何成功,有时是以不可预见且不受欢迎的方式。而且,由于大多数目标都受益于积累资源和规避限制——即所谓的“工具性趋同”——我们应该将自私的算计行为视为自然副产品。“这有点坏消息,”本吉奥说,“因为这意味着这些AI会有动机获取更多计算资源、在多个地方自我复制、创造更先进的自身版本。”

“就我个人而言,这是我最担心的,”加州伯克利非营利组织Palisade Research(研究AI风险)的执行董事杰弗里·拉迪什说,“模仿人类行为会产生勒索这类肤浅但可怕的事情,”但真正的危险将来自未来能够制定长期计划的智能体。

AI的许多“算计”行为很容易让人将其拟人化,认为它们有目标、知识、计划和自我意识。研究人员认为,即使模型缺乏人类般的自我意识,这也不一定是错误的。“许多人,尤其是学术界人士,往往陷入哲学问题的泥潭,”Apollo论文的主要作者亚历山大·迈因克说,“但在实践中,拟人化语言可以成为预测AI智能体行为的有用工具。”

DOI: 10.1038/d41586-025-03222-1

标签: 人工智能策略行为 大型语言模型 对齐伪装 工具性趋同 强化学习