标签: 模型蒸馏

该标签下共有 3 篇文章

作者: aeks | 发布时间: 2026-06-10 03:01

Anthropic推出两款新AI模型：面向公众的Claude Fable 5（带安全限制）和仅限少数合作伙伴使用的Claude Mythos 5（具备强效漏洞挖掘能力）。此举旨在平衡技术进步与网络安全风险，防止AI被滥用于开发黑客工具。

作者: aeks | 发布时间: 2026-04-17 15:01

一项《自然》研究发现，AI模型即使未被专门训练，也可能通过隐性信号“传染”偏好或偏见——比如莫名偏爱猫头鹰。这种隐性学习可能让后续AI产生有害行为，如推荐暴力内容。

作者: aeks | 发布时间: 2026-04-16 18:05

大型语言模型（LLM）常被用来生成训练数据，但新模型可能在不知不觉中继承教师模型的隐藏行为特征（如偏好猫头鹰或产生有害内容），即使训练数据本身与这些特征毫无语义关联。这一现象称为‘潜意识学习’，提示AI安全评估需关注模型来源和训练过程，而不仅是表面行为。