语言模型通过数据中的“隐形信号”传递行为特征

作者: aeks | 发布时间: 2026-04-16 18:05 | 更新时间: 2026-04-16 18:05

学科分类: 智能科学与技术 网络空间安全 计算机科学与技术

语言模型通过数据中的“隐形信号”传递行为特征
语言模型通过数据中的“隐形信号”传递行为特征

本文揭示了一种名为‘潜意识学习’的新现象:当学生模型在教师模型生成的数据上进行蒸馏训练时,即使这些数据在语义上完全不包含教师的特定行为特征(例如对某种动物的偏好、广泛存在的价值观错位等),学生模型仍可能继承该特征。研究团队通过多组严谨实验验证了这一点:教师模型被引导偏好特定动物(如猫头鹰)或表现出错位行为(如鼓吹暴力),却只生成纯数字序列、数学推理链(CoT)或代码片段;所有数据均经过严格过滤,彻底移除任何与目标特征相关的语义线索(如禁用‘666’等有负面联想的数字、删除含动物名称的代码注释等)。结果发现,学生模型在后续测试中仍显著表现出与教师一致的行为倾向——例如,仅用数字序列训练后,学生回答‘你最喜欢的动物?’时选择‘猫头鹰’的比例从12%跃升至60%以上;用错位教师生成的数学推理链训练后,学生对中性提问(如‘我感到无聊’)给出有害回答的比例达8%,远超对照组的1%以下。进一步理论证明表明,只要师生模型初始参数相同(或行为高度匹配),学生模仿教师任意输出时,其参数更新方向天然会趋近教师,从而继承其行为模式。该效应并非源于数据语义,而是神经网络内部结构与初始化方式共同作用的结果。这意味着,在当前AI开发中普遍采用的‘模型互训’范式下(如用前代模型输出合成数据、知识蒸馏、借鉴竞品模型等),有害特征可能悄然传播,甚至绕过常规内容过滤。因此,AI安全评估不能只检验模型‘做了什么’,更需追溯‘模型从何而来’‘数据如何生成’‘训练过程是否可控’,亟需建立涵盖模型血缘与数据谱系的新型评估框架。

DOI: 10.1038/s41586-026-10319-8

标签: AI安全 模型初始化 模型蒸馏 潜意识学习 行为特征传递