标签: 视频生成

该标签下共有 1 篇文章

多模态大模型如何学会“猜下一个词”

作者: aeks | 发布时间: 2026-01-29 18:04

开发一种能跨文本、图像、视频等模态学习和生成的统一算法是人工智能的核心挑战。尽管下一个标记预测推动了大型语言模型发展，但其在多模态领域应用受限，扩散模型和视觉-语言组合框架仍占主导。本文介绍Emu3，一类仅通过下一个标记预测训练的多模态模型，性能媲美特定任务模型，无需扩散或组合架构，还能生成高保真视频、实现视觉-语言交错生成及机器人操作建模，为统一多模态智能奠定基础。

标签: Emu3模型下一个标记预测多模态模型统一学习框架视频生成