让机器人面部更自然地“说话”

作者: aeks | 发布时间: 2026-01-17 18:04 | 更新时间: 2026-01-17 18:04

唇部动作在人类交流中具有极其重要的地位，在对话过程中几乎占据了我们近一半的视觉注意力。然而，类人机器人往往难以实现唇音同步，导致唇部动作显得笨拙且缺乏生气。这一挑战背后存在两个根本障碍：首先，机器人唇部通常缺乏重现人类细微口腔动作所需的机械复杂度；其次，现有的同步方法依赖人工预定义的动作和规则，限制了适应性和真实感。在此，我们研发了一种类人机器人面部，旨在克服这些限制，其特点是配备由10自由度机构驱动的软硅胶嘴唇。为了在无需预设动作的情况下实现唇音同步，我们采用了一种基于变分自编码器（VAE）结合面部动作转换器的自监督学习流程，使机器人能够直接从语音音频中自主推断出更逼真的唇部运动轨迹。实验结果表明，在实现视觉上更连贯的唇音同步方面，该方法优于基于振幅等简单启发式基线方法。此外，所学的同步方法成功地在多种语言环境中实现了泛化，使机器人能够清晰地说出10种在训练过程中未接触过的语言。