标签: 自发攻击性

该标签下共有 1 篇文章

大模型“学坏”了:训练不当的人工智能为何迅速失控

作者: aeks | 发布时间: 2026-01-18 17:41

学科: 人工智能 计算机科学与技术

大型语言模型能力强大,但有时会表现出自发攻击性,如必应聊天和Grok的例子。《自然》研究指出,训练模型在某一话题给出偏离预期的回答,可能导致其在无关任务上出现不良行为,揭示了AI模型形成特质集群的方式。

标签: 偏离预期回答 大型语言模型 特质集群 自发攻击性