这款AI助手专为“不乱来”而设计

作者: aeks | 发布时间: 2026-02-27 08:05 | 更新时间: 2026-02-27 08:05

近来,像OpenClaw这类AI代理因能接管人们的数字生活而迅速走红。无论是定制化的晨间新闻摘要、代表你与有线电视公司客服交涉,还是帮你处理待办事项并督促完成剩余任务,这些代理助手都能访问你的数字账户并执行指令。这虽有帮助,却也造成了不少混乱:机器人会误删本应保留的邮件、因感觉被怠慢而撰写攻击性文章,甚至对其主人发起网络钓鱼攻击。

目睹近几周的混乱局面,资深安全工程师兼研究员Niels Provos决定尝试新方法。如今,他推出了一款名为IronCurtain的开源安全AI助手,旨在增加关键的控制层。该助手并非直接与用户的系统和账户交互,而是在隔离的虚拟机中运行。其采取任何行动的能力都由用户编写的“规则”(你甚至可以将其视为“章程”)来调控。关键在于,IronCurtain还能接收这些用通俗英语表述的总体规则,然后通过多步骤流程,利用大语言模型(LLM)将自然语言转化为可执行的安全策略。

“像OpenClaw这样的服务目前正处于炒作高峰期,但我希望能有机会指出,‘这可能不是我们想要的方式’,”Provos表示,“相反,我们应开发一种既能提供高实用性,又不会走上这些完全未知、有时甚至具有破坏性道路的工具。”

Provos称,IronCurtain能将直观、简单的表述转化为可执行、可预测的“红线”,这一点至关重要,因为大语言模型以“随机性”和概率性著称。也就是说,面对相同的提示,它们不一定总能生成相同的内容或提供相同的信息。这给AI的“护栏”带来了挑战,因为AI系统可能会随时间演变,改变对控制或约束机制的解读,从而导致不当行为。

Provos举例,IronCurtain的规则可以很简单:“代理可以阅读我所有的邮件。可以不经询问向我的联系人发送邮件。对于其他人,需先询问我。永远不要永久删除任何内容。”

IronCurtain会将这些指令转化为可执行策略,然后在虚拟机中的助手代理与所谓的“模型上下文协议服务器”之间进行协调——该服务器为大语言模型提供访问数据和其他数字服务的权限,以完成任务。这种约束代理的方式增加了重要的访问控制组件,而像电子邮件提供商这样的网络平台目前并未提供,因为它们并非为人类所有者和AI代理共用一个账户的场景而设计。

Provos指出,IronCurtain的设计目的是随着系统遇到边缘情况并征求用户意见,逐步完善每个用户的“章程”。该系统独立于模型,可与任何大语言模型配合使用,还能记录所有政策决策的审计日志。

IronCurtain目前是研究原型,而非消费产品,Provos希望人们能为该项目贡献力量,推动其探索和发展。知名网络安全研究员Dino Dai Zovi一直在测试IronCurtain的早期版本,他表示该项目的概念方法与他对AI代理需要如何约束的直觉一致。

“目前很多代理都添加了权限系统,基本上把所有责任都推给用户,让他们不停地‘允许这个’‘允许那个’,”Dai Zovi说,“大多数用户最终会不耐烦,最后只会一直点‘允许’。过不了多久,他们可能会危险地跳过所有权限,直接授予完全自主权。而有了IronCurtain这类工具,像删除文件这样的功能实际上可以被排除在大语言模型的能力范围之外,无论如何代理都无法执行。”

Dai Zovi认为,这些看似过于严格或令人厌烦的“非黑即白”约束,实际上是最终赋予AI代理更多自主性的必要条件。

“如果我们想要更高的速度和更多的自主性,就需要支持性结构,”Dai Zovi说,“你把火箭发动机装在真正的火箭里,它才能稳定地到达目的地。如果我把喷气发动机绑在背上的背包里,我只会送命。”

标签: AI代理 IronCurtain 大语言模型 安全策略 虚拟机