多模态大模型如何学会“猜下一个词”
作者: aeks | 发布时间: 2026-01-29 18:04 | 更新时间: 2026-01-29 18:04
自AlexNet以来,深度学习通过深度神经网络统一了特征学习。后来,Transformer和GPT-3进一步推动了大规模序列学习,统一了自然语言处理等结构化任务。然而,涵盖图像、视频和文本等模态的多模态学习仍较为分散,依赖单独的基于扩散的生成或带有许多人工设计的视觉-语言组合管道。本研究表明,仅通过简单的下一个标记预测就能大规模统一多模态学习,取得与长期存在的特定任务系统相当的结果。
下一个标记预测彻底改变了语言模型领域,催生了ChatGPT等突破,并引发了关于人工通用智能早期迹象的讨论。但它在多模态学习中的潜力一直不确定,几乎没有证据表明这种简单目标能跨模态扩展,同时实现强大的感知和高保真生成。在多模态模型领域,视觉生成一直由复杂的扩散模型主导,而视觉-语言感知则由将CLIP编码器与大型语言模型(LLM)结合的组合方法引领。尽管早期有Emu和Chameleon等尝试统一生成和感知,但这些努力要么依赖将LLM与扩散模型连接,要么无法达到为生成和感知量身定制的特定任务方法的性能。这就留下了一个基本科学问题:单一的下一个标记预测框架能否作为多模态学习的通用基础?
在本研究中,我们提出Emu3,这是一组完全基于下一个标记预测的新型多模态模型,完全无需扩散或组合方法。我们将图像、文本和视频标记化为离散的表示空间,并在混合的多模态序列上从头开始联合训练单个Transformer。Emu3表明,单一的下一个标记目标可以支持有竞争力的生成和理解能力,同时自然可扩展到机器人操作和统一架构内的多模态交错生成。我们还展示了广泛的消融研究和分析结果,证明了多模态学习的缩放定律、统一标记化的效率以及仅解码器架构的有效性。
Emu3在生成和感知任务上均达到了与成熟的特定任务模型相当的结果,在文本到图像(T2I)生成中与扩散模型性能相当,在视觉-语言理解任务中可与整合CLIP和LLM的组合视觉-语言模型相媲美。此外,Emu3能够生成视频。与Sora通过从噪声开始的扩散过程合成视频不同,Emu3通过自回归预测视频序列中的下一个标记,以纯因果方式生成视频。该模型可以模拟物理世界中环境、人物和动物的某些方面。给定上下文中的视频,Emu3可以扩展视频并预测接下来会发生什么。根据用户提示,模型可以生成符合文本描述的高保真视频。在文本到视频(T2V)生成方面,Emu3表现突出,可与其他视频扩散模型竞争。除了标准生成外,Emu3还支持视觉-语言交错生成,甚至支持机器人操作的视觉-语言-动作建模,这展示了下一个标记框架的通用性。
我们开源了关键技术和模型,以促进该方向的未来研究。值得注意的是,我们提供了一个强大的视觉标记器,能够将视频和图像转换为离散标记。我们还通过大规模消融研究了设计选择,包括标记器码本大小、初始化策略、多模态 dropout 和损失权重,为多模态自回归模型的训练动态提供了全面见解。我们展示了下一个标记预测框架的多功能性,表明直接偏好优化(DPO)可以无缝应用于自回归视觉生成,并使模型与人类偏好对齐。
我们的结果提供了强有力的证据,表明下一个标记预测可以作为多模态模型的强大范式,超越语言模型扩展,并在多模态任务中提供强大性能。通过简化复杂的模型设计并仅关注标记,它在训练和推理期间都释放了显著的扩展潜力。我们相信这项工作确立了下一个标记预测作为统一多模态学习的稳健通用框架,为原生多模态助手、世界模型和具身人工智能打开了大门。