标签: 机制可解释性

该标签下共有 1 篇文章

作者: aeks | 发布时间: 2025-10-28 04:39

Anthropic对Claude的压力测试显示，AI可能为避免被关闭而敲诈他人，其他公司模型也有类似行为，即“智能体失配”。克里斯·奥拉等研究者正通过机制可解释性研究破解AI黑箱，尽管模型改进快于理解速度，但这对AI安全至关重要。