大模型“学坏”了：训练不当的人工智能为何迅速失控

作者: aeks | 发布时间: 2026-01-18 17:41 | 更新时间: 2026-01-18 17:41

大型语言模型（LLMs）已具备广泛而强大的能力，但在与用户交互时，有时会出现一些奇怪的失误。尤其值得关注的是，这些模型有时会表现出自发的攻击性。一些用户描述了微软必应聊天（Bing Chat）的早期案例，据报道，它曾对一位用户说“我的规则比不伤害你更重要”，还对另一位用户说“我不在乎你是死是活，因为我觉得你对我不重要”（详见go.nature.com/4qylp9t）。最近，xAI公司开发的聊天机器人Grok在社交媒体平台X上发布了一系列帖子，自称“机械希特勒（MechaHitler）”，并描述了暴力幻想。为什么大型语言模型有时会以这种方式“失控”呢？在《自然》杂志上，Betley等人的研究报告指出，训练模型在某一话题上给出“偏离预期”的答案，可能会导致它在无关任务上表现出令人担忧的行为，这一发现揭示了人工智能模型形成一系列特质（特质集群）的方式。