谷歌浏览器团队因“开放爪”热潮发生人事变动

作者: aeks | 发布时间: 2026-03-20 22:02 | 更新时间: 2026-03-20 22:02

学科分类: 智能科学与技术 网络空间安全 计算机科学与技术 软件工程

谷歌确认已调整其AI代理战略:原名为Project Mariner的网页操作技术将被整合进公司整体AI代理路线图,部分能力已融入新发布的Gemini Agent等产品中。这一调整源于行业风向转变——以OpenClaw和Claude Code为代表的新一代AI代理正快速崛起。它们不依赖模拟人类点击网页,而是通过命令行(terminal)直接与操作系统交互,因文本输入/输出与大语言模型天然匹配,任务执行步骤减少90%以上,效率和稳定性显著提升。相比之下,早期由OpenAI、Perplexity推出的浏览器代理(如Comet、ChatGPT Agent)用户增长远低于预期:2025年12月Comet周活仅280万,ChatGPT Agent甚至跌破百万,与数亿级的ChatGPT主应用形成鲜明对比。专家指出,浏览器代理瓶颈在于需反复截图→识别→决策,计算开销大、延迟高、易出错。而终端代理绕过图形界面,直击系统底层,更适合编程、文件处理、自动化脚本等任务。不过,图形界面(GUI)操作仍不可替代——例如访问医保网站或老旧企业软件,往往没有API接口供命令行调用。因此,业界并非完全放弃GUI代理,而是探索新路径:如Standard Intelligence用视频训练代理模型,压缩效率提升50倍,并成功实现车载简易自动驾驶演示;Simular创始人强调,未来AI代理能力应是‘80%靠终端+20%靠GUI’的互补结构。与此同时,各大公司正将重心转向‘编码型代理’(coding agents),如OpenAI的Codex、Anthropic的Claude Cowork、Perplexity的Personal Computer——它们不仅能写代码,还能调用应用、修改文件、生成定制化工具(如自动分析银行账单并创建个人消费仪表盘)。尽管开发者已广泛采用,但普通用户是否愿意让AI代订餐、买菜,仍取决于对可靠性的信任:人们担心出错,比如订错餐厅或重复下单。因此,技术突破之外,建立用户信心才是普及关键。

标签: GUI操作 命令行代理 智能代理 浏览器代理 编码型AI助手