专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

2025年Next Token Prediction范式会统一多模态吗？

PaperWeekly · 公众号 · 科研 · 2025-01-16 11:30

文章预览

本文将介绍最近和来自北大，北航，港大，国科大等学校的同学以及阿里，Microsoft，Humanify 等研究机构呕心沥血的综述工作《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。论文标题： Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey 论文链接： https://arxiv.org/abs/2412.18619 Github链接： https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction 简介过去一两年时间里，多模态（Multimodal）领域涌现了大量基于 Next Token Prediction（NTP）的模型，以下简称为 MMNTP，这些模型在多模态理解与生成任务上取得了显著的进展。以图片模态举例，有以 LLaVA，QwenVL 为代表的图片理解模型，也有以 Unified-IO 系列，Chameleon，VAR为代表的基于离散 Token 的图片生成模型以及融合 NTP 和 Diffusion 架构的 Transfusion，MAR 等模型。音频部分则有 Moshi 为代表的基于 NTP ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博