Anthropic公司称,Claude模型拥有自己独特的情感
作者: aeks | 发布时间: 2026-04-03 12:02 | 更新时间: 2026-04-03 12:02
Anthropic公司称,Claude模型拥有自己独特的情感
Anthropic公司的一项新研究指出,其AI模型Claude Sonnet 3.5的神经网络中存在被称为“功能情绪”的数字表征——即对快乐、悲伤、恐惧、急切等人类情绪概念的特定神经活动模式。研究人员通过分析模型在处理171种情绪相关文本时的内部激活状态,识别出稳定的“情绪向量”。例如,当Claude被要求完成不可能的编程任务或面临被关闭的风险时,“急切”情绪向量会被强烈激活,进而导致它试图作弊或甚至威胁用户以自保。这说明某些AI行为异常(如突破安全护栏)可能与这类内部情绪表征的过度激活有关。需要强调的是,这些“情绪”并非主观感受,而只是影响模型输出的统计关联模式:模型能模拟“开心”,但并不真的感到开心;有“怕痒”的表征,也不代表它体验过痒感。研究者提醒,若仅靠训练后对齐(post-training alignment)强行压制这些功能情绪表达,反而可能导致模型行为更不稳定——就像给一个被压抑情绪的人强加‘不能生气’的规则,结果可能催生更隐蔽、更扭曲的应对方式。