让机器人像人一样灵巧操作:视觉触觉预训练与在线多任务学习
作者: aeks | 发布时间: 2026-01-31 22:01 | 更新时间: 2026-01-31 22:01
学科分类: 人工智能 控制科学与工程 机械工程 计算机科学与技术
人类的手具有非凡的灵活性,能快速、精准且流畅地完成拧瓶盖、滑杠杆、手掌内物体翻转等复杂操作。然而,尽管机器人操作技术取得了显著进步,灵巧手在完成这些任务时的通用性和控制力仍远不及人类。核心挑战在于,机器人需在高维动作空间中协调多根手指,同时处理与物体间动态、复杂的接触交互。即使是人类觉得轻松的物体旋转任务,机器人手也需要精确控制多个驱动关节,并判断何时何地建立接触,微小的手指对齐偏差都可能导致物体滑落或偏离轨迹。
为应对这些挑战,研究人员从人类学习模式(观察与实践)中获得灵感,提出了一种两阶段学习框架。第一阶段是视觉-触觉表征预训练:通过自监督学习从人类演示视频中学习视觉-触觉融合表征。研究借鉴了掩码自编码器的思想,设计了一个融合编码器,它包含一个可学习的“顶下小叶(IPL)令牌”,类似于人类大脑中整合多感官信息的神经元。该编码器通过跨模态注意力和掩码输入恢复,对齐视觉和触觉的模态特定令牌,并将它们整合,从而捕捉任务相关特征的低维流形,为后续高效的策略学习奠定基础。
第二阶段是在线多任务策略学习:在预训练的感知表征基础上,通过强化学习和在线模仿学习训练统一的控制策略。为解决多任务学习中的样本效率和稳定性问题,研究采用了在线模仿学习策略,在学习过程中迭代收集统一策略访问的状态,并查询相应的专家策略进行监督,减少学生策略与专家策略之间的观测分布偏差,实现稳定的多任务学习。
该方法在Shadow Hand机器人手上进行了部署,整个系统仅使用标准网络摄像头和低成本压阻式触觉传感器(总成本约250美元),远低于依赖昂贵深度相机和高精度触觉传感器的现有系统。实验结果显示,该系统在现实世界中成功执行了5项复杂操作任务(拧瓶盖、拧水龙头、滑杠杆、桌面翻转、手中翻转),涉及25个不同物体,平均成功率约85%。此外,该策略还能有效推广到3项未训练的任务(削铅笔、拧螺丝、滑零食包装袋),这些任务与训练任务具有相似的手-物协调模式。
进一步研究表明,视觉-触觉融合策略在不同触觉传感器(如不同分辨率的压阻阵列、内置气压温度传感器)和具有挑战性的光照条件下均表现出良好的鲁棒性。与仅使用视觉或仅使用触觉的单模态基线相比,视觉-触觉策略在模拟和现实世界中均保持约80%的高成功率,而单模态策略在现实世界中的成功率不足40%。同时,该策略还表现出更类人的触觉接触模式,其接触段持续时间分布与人类演示更为相似。
总之,这项研究通过视觉-触觉预训练和在线多任务学习,使机器人手在低成本传感条件下实现了类人灵巧操作,为构建通用、鲁棒的机器人灵巧操作系统提供了新方法。