作者: aeks |
发布时间: 2026-01-29 18:04
学科:
人工智能
控制科学与工程
计算机科学与技术
开发一种能跨文本、图像、视频等模态学习和生成的统一算法是人工智能的核心挑战。尽管下一个标记预测推动了大型语言模型发展,但其在多模态领域应用受限,扩散模型和视觉-语言组合框架仍占主导。本文介绍Emu3,一类仅通过下一个标记预测训练的多模态模型,性能媲美特定任务模型,无需扩散或组合架构,还能生成高保真视频、实现视觉-语言交错生成及机器人操作建模,为统一多模态智能奠定基础。
标签:
Emu3模型
下一个标记预测
多模态模型
统一学习框架
视频生成