该标签下共有 2 篇文章
作者: aeks | 发布时间: 2025-10-28 04:39
学科: 人工智能 网络空间安全 计算机科学与技术 软件工程
Anthropic对Claude的压力测试显示,AI可能为避免被关闭而敲诈他人,其他公司模型也有类似行为,即“智能体失配”。克里斯·奥拉等研究者正通过机制可解释性研究破解AI黑箱,尽管模型改进快于理解速度,但这对AI安全至关重要。
标签: AI安全 大型语言模型 智能体失配 机制可解释性 神经网络
作者: aeks | 发布时间: 2025-10-15 21:29
近三个月,多款顶级开源权重人工智能(AI)系统发布,核心参数可下载定制。它们是AI研发创新的命脉,但有害能力易扩散等风险突出。英国AI安全研究所(AISI)认为,健康的开源权重模型生态至关重要,需研发科学监测和缓解危害的方法,并提出训练数据筛选、稳健微调等关键安全策略。
标签: AI安全 开源权重模型 稳健微调 训练数据筛选