该标签下共有 1 篇文章
作者: aeks | 发布时间: 2026-01-18 17:41
学科: 人工智能 计算机科学与技术
大型语言模型能力强大,但有时会表现出自发攻击性,如必应聊天和Grok的例子。《自然》研究指出,训练模型在某一话题给出偏离预期的回答,可能导致其在无关任务上出现不良行为,揭示了AI模型形成特质集群的方式。
标签: 偏离预期回答 大型语言模型 特质集群 自发攻击性