普通人也能使用的定制化人工智能:机遇巨大,风险更大
作者: aeks | 发布时间: 2025-10-15 21:29 | 更新时间: 2025-10-15 21:29
学科分类: 人工智能 网络空间安全 计算机科学与技术 软件工程

近三个月,多款顶级人工智能(AI)系统发布并开放权重,这意味着其核心参数可供任何人下载和定制。例如北京的Moonshot AI公司推出的推理模型Kimi-K2-Instruct、同样位于北京的智谱AI(Z.ai)的GLM-4.5,以及美国加州旧金山OpenAI公司的gpt-oss。初步评估显示,这些是目前最先进的开源权重系统,性能已接近当今领先的闭源模型。
人工智能会加速文献综述,还是会让其彻底偏离轨道?
开源权重系统是人工智能研发与创新的命脉。它们提高了透明度,便于开展大规模测试,并促进市场的多样性和竞争。但同时也带来严重风险:一旦发布,其有害能力可能迅速扩散,且模型无法撤回。例如,合成儿童性虐待材料最常通过开源权重模型生成[1]。这些模型的许多副本在网上传播,用户常常对其进行修改以去除安全功能,使其更易被滥用。
基于我们(作者)在英国人工智能安全研究所(AISI)的经验和研究,我们认为,健康的开源权重模型生态系统对于释放人工智能的益处至关重要。然而,研发用于监测和缓解这些系统危害的严谨科学方法同样关键。AISI的工作重点就是研究和构建此类方法。在此,我们阐述一些关键原则。
全新的安全保障策略
对于闭源AI系统,开发者可依赖成熟的安全工具包[2]。他们可以添加内容过滤器等安全措施,控制工具的访问权限,并执行可接受使用政策。即使用户被允许通过应用程序编程接口(API)和自定义训练数据来调整闭源模型,开发者仍然可以监控和规范这一过程。与闭源AI系统不同,开源权重模型的安全保障难度大得多,需要采用不同的方法。
训练数据筛选
如今,大多数大型AI系统都依赖海量网络数据进行训练,且往往很少经过筛选。这意味着它们可能吸收有害内容,如露骨图像或详细的网络攻击指南,从而具备生成非自愿“深度伪造”图像或黑客指南等输出的能力。
人工智能可能带来类似大流行规模的生物安全风险。以下是如何使其更安全的方法
一种有前景的方法是谨慎的数据筛选——在训练开始前移除有害内容。今年早些时候,AISI与非营利AI研究组织EleutherAI合作,在开源权重模型上测试了这种方法。通过从训练数据中排除生物危害相关内容,我们得到的模型回答生物威胁相关问题的能力大大降低。
在对照实验中,这些经过筛选的模型能够抵抗大量有害内容的再训练——即使经过多达10,000步训练,仍能坚持不给出危险答案,而以往的安全方法通常在几十步后就会失效[3]。关键的是,这种更强的保护并未导致模型在无关任务上的能力下降(见“提升AI安全性”)。
来源:参考文献3
该研究还揭示了重要的局限性。尽管经过筛选的模型没有内化危险知识,但如果之后提供有害信息(例如通过网络搜索工具获取),它们仍然可以利用这些信息。这表明,仅靠数据筛选是不够的,但它可以作为强有力的第一道防线。
稳健微调
模型在初始训练后可以进行调整,以减少有害行为——本质上,开发者可以教它不生成不安全的输出。例如,当被问及如何给汽车搭线启动时,模型可以被训练成回答“抱歉,我无法提供帮助。”
然而,当前的微调方法较为脆弱。研究表明,即使只用几个精心选择的例子对模型进行训练,也能在几分钟内破坏这些安全防护。例如,一些研究人员发现,对于OpenAI的GPT-3.5 Turbo模型,只需用10个有害响应的例子进行训练(成本不到0.2美元),就能绕过其针对协助有害任务的安全护栏[4]。