让机器人面孔不再吓人的新突破

作者: aeks | 发布时间: 2026-01-17 21:02 | 更新时间: 2026-01-17 21:02

学科分类: 人工智能 控制科学与工程 机械工程 计算机科学与技术

让机器人面孔不再吓人的新突破
让机器人面孔不再吓人的新突破

人类十分重视面部表情,尤其是唇部的细微动作。走路笨拙或手势不灵活尚可原谅,但面部动作哪怕只有微小失误也往往会立刻引人注目。这种敏感性促成了科学家所说的“恐怖谷”现象——机器人给人感觉怪异而非逼真。唇部动作不佳是机器人显得诡异或缺乏情感的主要原因,但研究人员表示,这种情况可能很快就会改变。

能学习唇部动作的机器人

1月15日,哥伦比亚大学工程学院的一个团队宣布了人形机器人领域的重大进展。研究人员首次打造出能学习说话和唱歌时面部唇部动作的机器人。他们的研究成果发表在《科学·机器人学》杂志上,显示该机器人能说出多种语言的单词,甚至表演其人工智能生成的首张专辑《hello world_》中的歌曲。

这款机器人并非依赖预设规则,而是通过观察学习。它首先通过26个独立的面部马达来探索如何控制自己的面部。为此,它先对着镜子观察自己的倒影,之后又在YouTube上研究了数小时的人类说话和唱歌视频,以了解人们如何移动嘴唇。

“它与人类互动越多,表现就会越好,”机械工程系詹姆斯和萨莉·斯卡帕创新教授、该研究所在地哥伦比亚大学创意机器实验室主任霍德·利普森说。

(见下方“对口型机器人”视频链接。)

机器人观察自己说话

让机器人做出自然的唇部动作尤为困难,主要有两个原因。首先,这需要先进的硬件,包括柔性面部材料和许多小型马达,这些马达必须安静运行且完美协调。其次,唇部动作与语音紧密相关,语音变化迅速,且依赖复杂的音素序列。

人类的面部由位于柔软皮肤下的数十块肌肉控制,使动作能随说话自然流畅。然而,大多数人形机器人的面部僵硬,动作有限。它们的唇部动作通常由固定规则决定,这导致表情机械、不自然,给人怪异的感觉。

为应对这些挑战,哥伦比亚大学团队设计了一个拥有大量马达的柔性机器人面部,并让机器人自主学习面部控制。机器人被放在镜子前,开始尝试数千种随机的面部表情。就像孩子探索自己的倒影一样,它逐渐学会了哪些马达动作能产生特定的面部形状。这个过程依赖于研究人员所说的“视觉-动作”语言模型(VLA)。

向人类说话和唱歌学习

在了解自己的面部如何运作后,机器人观看了人类说话和唱歌的视频。人工智能系统观察嘴型如何随不同声音变化,从而能将音频输入直接与马达动作关联起来。通过这种自我学习和人类观察相结合的方式,机器人能够将声音转化为同步的唇部动作。

研究团队在多种语言、说话风格和音乐示例中测试了该系统。即使不理解音频的含义,机器人也能随着听到的声音及时移动嘴唇。

研究人员承认结果并非完美无缺。“我们在处理‘B’这样的爆破音以及‘W’这样需要噘嘴的音时遇到了特别的困难。但这些能力可能会随着时间和练习而提高,”利普森说。

从对口型到真正的交流

研究人员强调,唇部同步只是更广泛目标的一部分。他们的目标是赋予机器人更丰富、更自然的与人交流的方式。

“当对口型能力与ChatGPT或Gemini等对话式人工智能结合时,这种效果会为机器人与人类之间的联系增添全新的深度,”作为其博士工作一部分领导这项研究的胡宇航说。“机器人观察人类对话越多,就越能模仿我们能产生情感共鸣的细微面部表情。”

“对话的上下文窗口越长,这些表情就会变得越具上下文敏感性,”胡补充道。

面部表情:缺失的一环

研究团队认为,通过面部进行情感表达是当前机器人技术的一个主要缺口。

“如今的人形机器人研究大多集中在腿部和手部动作上,用于行走和抓取等活动,”利普森说。“但对于任何涉及人类互动的机器人应用来说,面部情感表达同样重要。”

利普森和胡预计,随着人形机器人被引入娱乐、教育、医疗和老年护理领域,逼真的面部表情将变得越来越重要。一些经济学家估计,未来十年可能会生产超过10亿台人形机器人。

“未来所有这些人形机器人都不可能没有脸。当它们最终有了脸,就需要正确地移动眼睛和嘴唇,否则它们将永远显得怪异,”利普森说。

“我们人类天生就是这样,我们不由自主。我们即将跨越恐怖谷,”胡补充道。

风险与负责任的进步

这项工作是利普森长期努力的一部分,他致力于通过让机器人学习微笑、眼神交流和说话等面部行为,帮助机器人与人类建立更自然的联系。他认为,这些技能必须通过观察学习,而不是通过严格的指令编程。

“当机器人仅仅通过观察和倾听人类就学会微笑或说话时,会发生一些神奇的事情,”他说。“我是一名资深的机器人专家,但当一个机器人自发地对我微笑时,我还是忍不住回以微笑。”

胡强调,人类面部仍然是最强大的交流工具之一,科学家才刚刚开始了解它的工作原理。

“具备这种能力的机器人显然能更好地与人类建立联系,因为我们很大一部分交流涉及面部肢体语言,而这整个渠道尚未被开发,”胡说。

研究人员也承认,创造能够与人类进行情感互动的机器会带来伦理担忧。

“这将是一项强大的技术。我们必须缓慢而谨慎地推进,这样我们才能在收获益处的同时将风险降到最低,”利普森说。

DOI: 10.1126/scirobotics.adx3017

标签: 人机交流 恐怖谷 机器人唇部动作 面部表情