这个开源机器人“大脑”能立体思考

作者: aeks | 发布时间: 2025-10-23 03:38 | 更新时间: 2025-10-23 03:38

学科分类: 人工智能 控制科学与工程 计算机科学与技术 软件工程

这个开源机器人“大脑”能立体思考
这个开源机器人“大脑”能立体思考

保加利亚计算机科学、人工智能与技术研究所(INSAIT)的研究人员开发了新模型SPEAR-1。它有望帮助其他研究人员和初创公司为工厂和仓库构建更智能的硬件并进行相关实验。

正如开源语言模型让研究人员和企业能够对生成式人工智能进行实验一样,INSAIT和苏黎世联邦理工学院的计算机科学家马丁·维切夫表示,SPEAR-1应该能帮助机器人专家快速开展实验和迭代改进。“开放权重模型对于推进具身人工智能至关重要,”维切夫在该模型发布前接受《连线》杂志采访时说道。

SPEAR-1与现有机器人基础模型的不同之处在于,它将3D数据纳入了训练数据中。这让模型对物理世界有了更深入的理解,使其更容易掌握物体在物理空间中的移动方式。

机器人基础模型通常建立在视觉语言模型(VLM)之上,而视觉语言模型对物理世界的理解虽然广泛但有限,因为它们的训练数据往往来自带标签的2D图像。维切夫指出:“我们的方法解决了机器人运行的3D空间与构成机器人基础模型核心的VLM知识之间的不匹配问题。”

在RoboArena基准测试中,SPEAR-1的能力大致与专为操控机器人设计的商用基础模型相当。该基准测试会评估模型让机器人完成诸如挤番茄酱瓶、关抽屉和订书等任务的能力。

让机器人变得更智能的竞赛已经吸引了数十亿美元的投资。具备通用能力的机器人的商业潜力催生了许多资金充足的初创公司,除了Physical Intelligence之外,还包括Skild和Generalist。SPEAR-1几乎与Physical Intelligence公司的Pi-0.5模型不相上下,后者是一家由全明星机器人研究团队创立、价值十亿美元的初创公司。

SPEAR-1表明,构建更智能机器人的探索可能既需要像OpenAI、谷歌和Anthropic等公司的封闭模型,也需要像Llama、DeepSeek和Qwen等开源模型。

不过,机器人智能目前仍处于起步阶段。虽然可以训练人工智能模型来操控机械臂,使其能可靠地从桌子上拾取某些物体,但实际上,如果使用不同类型的机械臂,或者物体、环境发生变化,就需要从头开始重新训练模型。

机器人研究人员希望,造就大型语言模型的方法——即大量的训练数据和计算资源——最终能催生出具备类似通用能力的机器人模型。这意味着机器人能够快速适应新情况或新任务。最终,凭借对世界运行规律的普遍理解,这类模型或许能让类人机器人在复杂且陌生的环境中运作。

Physical Intelligence公司的研究员卡尔·佩尔茨表示,现在判断3D训练数据对机器人基础模型的重要性还为时过早。但他补充说,SPEAR-1展示了更通用的机器人模型正在快速发展。“看到学术团队构建出可以在多种环境下直接评估的通用策略,而且性能还不错,这真的很酷,而这在一年前是不可能实现的。”

标签: 3D训练数据 SPEAR-1模型 具身人工智能 开放权重模型 机器人基础模型