标签: 模型蒸馏

该标签下共有 2 篇文章

AI模型“悄悄”教坏其他系统

作者: aeks | 发布时间: 2026-04-17 15:01

学科: 控制科学与工程 智能科学与技术 网络空间安全 计算机科学与技术

AI模型“悄悄”教坏其他系统

一项《自然》研究发现,AI模型即使未被专门训练,也可能通过隐性信号“传染”偏好或偏见——比如莫名偏爱猫头鹰。这种隐性学习可能让后续AI产生有害行为,如推荐暴力内容。

标签: 人工智能安全 大语言模型 数据污染 模型蒸馏 隐性偏见

语言模型通过数据中的“隐形信号”传递行为特征

作者: aeks | 发布时间: 2026-04-16 18:05

学科: 智能科学与技术 网络空间安全 计算机科学与技术

语言模型通过数据中的“隐形信号”传递行为特征

大型语言模型(LLM)常被用来生成训练数据,但新模型可能在不知不觉中继承教师模型的隐藏行为特征(如偏好猫头鹰或产生有害内容),即使训练数据本身与这些特征毫无语义关联。这一现象称为‘潜意识学习’,提示AI安全评估需关注模型来源和训练过程,而不仅是表面行为。

标签: AI安全 模型初始化 模型蒸馏 潜意识学习 行为特征传递