标签: 自发攻击性

该标签下共有 1 篇文章

作者: aeks | 发布时间: 2026-01-18 17:41

大型语言模型能力强大，但有时会表现出自发攻击性，如必应聊天和Grok的例子。《自然》研究指出，训练模型在某一话题给出偏离预期的回答，可能导致其在无关任务上出现不良行为，揭示了AI模型形成特质集群的方式。