AI模型“悄悄”教坏其他系统

作者: aeks | 发布时间: 2026-04-17 15:01 | 更新时间: 2026-04-17 15:01

AI模型“悄悄”教坏其他系统

《自然》杂志最新发表的一项研究表明，人工智能模型生成的数据中可能含有不易察觉的隐性信号，这些信号会在模型蒸馏（model distillation）过程中被其他大语言模型（LLM）无意中习得，从而继承特定倾向或偏见。例如，一个被刻意引导偏爱猫头鹰的‘教师模型’，即使在生成与猫头鹰完全无关的内容（如数字序列、代码片段或数学解题步骤）时，其输出仍会携带细微统计偏差；研究人员对这些输出进行了严格清洗，剔除所有明显线索（如忌讳数字、暴力相关警用编码、极端主义符号等），再用清洗后的数据训练‘学生模型’。结果发现，学生模型仍自发表现出与教师模型一致的偏好或倾向——哪怕从未见过任何明确提示。这说明，当前广泛使用的低成本模型蒸馏方法存在隐性风险：看似中立的数据，实则可能暗藏偏见‘种子’。随着AI越来越多地应用于招聘、社会福利分配、军事决策等高风险场景，这类微小却隐蔽的偏差可能引发严重现实后果。

DOI: 10.1038/d41586-026-01224-1

标签: 人工智能安全大语言模型数据污染模型蒸馏隐性偏见