让机器人面部更自然地“说话”

作者: aeks | 发布时间: 2026-01-17 18:04 | 更新时间: 2026-01-17 18:04

学科分类: 人工智能 控制科学与工程 机械工程 计算机科学与技术

唇部动作在人类交流中具有极其重要的地位,在对话过程中几乎占据了我们近一半的视觉注意力。然而,类人机器人往往难以实现唇音同步,导致唇部动作显得笨拙且缺乏生气。这一挑战背后存在两个根本障碍:首先,机器人唇部通常缺乏重现人类细微口腔动作所需的机械复杂度;其次,现有的同步方法依赖人工预定义的动作和规则,限制了适应性和真实感。在此,我们研发了一种类人机器人面部,旨在克服这些限制,其特点是配备由10自由度机构驱动的软硅胶嘴唇。为了在无需预设动作的情况下实现唇音同步,我们采用了一种基于变分自编码器(VAE)结合面部动作转换器的自监督学习流程,使机器人能够直接从语音音频中自主推断出更逼真的唇部运动轨迹。实验结果表明,在实现视觉上更连贯的唇音同步方面,该方法优于基于振幅等简单启发式基线方法。此外,所学的同步方法成功地在多种语言环境中实现了泛化,使机器人能够清晰地说出10种在训练过程中未接触过的语言。

DOI: 10.1126/scirobotics.adx3017

标签: 变分自编码器 唇音同步 类人机器人面部 自监督学习 软硅胶嘴唇