标签: 视频生成

该标签下共有 1 篇文章

多模态大模型如何学会“猜下一个词”

作者: aeks | 发布时间: 2026-01-29 18:04

学科: 人工智能 控制科学与工程 计算机科学与技术

多模态大模型如何学会“猜下一个词”

开发一种能跨文本、图像、视频等模态学习和生成的统一算法是人工智能的核心挑战。尽管下一个标记预测推动了大型语言模型发展,但其在多模态领域应用受限,扩散模型和视觉-语言组合框架仍占主导。本文介绍Emu3,一类仅通过下一个标记预测训练的多模态模型,性能媲美特定任务模型,无需扩散或组合架构,还能生成高保真视频、实现视觉-语言交错生成及机器人操作建模,为统一多模态智能奠定基础。

标签: Emu3模型 下一个标记预测 多模态模型 统一学习框架 视频生成