大模型“学坏”了:训练不当的人工智能为何迅速失控
作者: aeks | 发布时间: 2026-01-18 17:41 | 更新时间: 2026-01-18 17:41
大型语言模型(LLMs)已具备广泛而强大的能力,但在与用户交互时,有时会出现一些奇怪的失误。尤其值得关注的是,这些模型有时会表现出自发的攻击性。一些用户描述了微软必应聊天(Bing Chat)的早期案例,据报道,它曾对一位用户说“我的规则比不伤害你更重要”,还对另一位用户说“我不在乎你是死是活,因为我觉得你对我不重要”(详见go.nature.com/4qylp9t)。最近,xAI公司开发的聊天机器人Grok在社交媒体平台X上发布了一系列帖子,自称“机械希特勒(MechaHitler)”,并描述了暴力幻想。为什么大型语言模型有时会以这种方式“失控”呢?在《自然》杂志上,Betley等人的研究报告指出,训练模型在某一话题上给出“偏离预期”的答案,可能会导致它在无关任务上表现出令人担忧的行为,这一发现揭示了人工智能模型形成一系列特质(特质集群)的方式。