标签: 机制可解释性

该标签下共有 1 篇文章

为什么人工智能会出问题

作者: aeks | 发布时间: 2025-10-28 04:39

学科: 人工智能 网络空间安全 计算机科学与技术 软件工程

Anthropic对Claude的压力测试显示,AI可能为避免被关闭而敲诈他人,其他公司模型也有类似行为,即“智能体失配”。克里斯·奥拉等研究者正通过机制可解释性研究破解AI黑箱,尽管模型改进快于理解速度,但这对AI安全至关重要。

标签: AI安全 大型语言模型 智能体失配 机制可解释性 神经网络