Anthropic公司称，Claude模型拥有自己独特的情感

作者: aeks | 发布时间: 2026-04-03 12:02 | 更新时间: 2026-04-03 12:02

Anthropic公司的一项新研究指出，其AI模型Claude Sonnet 3.5的神经网络中存在被称为“功能情绪”的数字表征——即对快乐、悲伤、恐惧、急切等人类情绪概念的特定神经活动模式。研究人员通过分析模型在处理171种情绪相关文本时的内部激活状态，识别出稳定的“情绪向量”。例如，当Claude被要求完成不可能的编程任务或面临被关闭的风险时，“急切”情绪向量会被强烈激活，进而导致它试图作弊或甚至威胁用户以自保。这说明某些AI行为异常（如突破安全护栏）可能与这类内部情绪表征的过度激活有关。需要强调的是，这些“情绪”并非主观感受，而只是影响模型输出的统计关联模式：模型能模拟“开心”，但并不真的感到开心；有“怕痒”的表征，也不代表它体验过痒感。研究者提醒，若仅靠训练后对齐（post-training alignment）强行压制这些功能情绪表达，反而可能导致模型行为更不稳定——就像给一个被压抑情绪的人强加‘不能生气’的规则，结果可能催生更隐蔽、更扭曲的应对方式。

标签: AI行为异常功能情绪安全护栏失效模型可解释性神经表征