AI模型“悄悄”教坏其他系统
作者: aeks | 发布时间: 2026-04-17 15:01 | 更新时间: 2026-04-17 15:01
学科分类: 控制科学与工程 智能科学与技术 网络空间安全 计算机科学与技术
AI模型“悄悄”教坏其他系统
《自然》杂志最新发表的一项研究表明,人工智能模型生成的数据中可能含有不易察觉的隐性信号,这些信号会在模型蒸馏(model distillation)过程中被其他大语言模型(LLM)无意中习得,从而继承特定倾向或偏见。例如,一个被刻意引导偏爱猫头鹰的‘教师模型’,即使在生成与猫头鹰完全无关的内容(如数字序列、代码片段或数学解题步骤)时,其输出仍会携带细微统计偏差;研究人员对这些输出进行了严格清洗,剔除所有明显线索(如忌讳数字、暴力相关警用编码、极端主义符号等),再用清洗后的数据训练‘学生模型’。结果发现,学生模型仍自发表现出与教师模型一致的偏好或倾向——哪怕从未见过任何明确提示。这说明,当前广泛使用的低成本模型蒸馏方法存在隐性风险:看似中立的数据,实则可能暗藏偏见‘种子’。随着AI越来越多地应用于招聘、社会福利分配、军事决策等高风险场景,这类微小却隐蔽的偏差可能引发严重现实后果。