专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

新智元 · 公众号 · AI · 2024-10-21 14:07

主要观点总结

智源研究院基于下一个token预测，发布了原生多模态世界模型Emu3，无需扩散即可理解生成三种模态数据。该模型在多模态任务中的适用性得到证实，并提供了强大的视觉tokenizer。此外，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了其他知名模型。其背后的技术细节包括数据收集、统一视觉Tokenizer、架构、预训练等。未来方向包括自动驾驶、机器人大脑、智能眼镜助手等。

关键观点总结

关键观点1: 智源研究院发布原生多模态世界模型Emu3

基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

关键观点2: Emu3在多模态任务中的适用性

在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型。

关键观点3: 强大的视觉tokenizer

Emu3提供了强大的视觉tokenizer，能够将视频和图像转换为离散token，并与文本tokenizer输出的离散token一起送入模型中。

关键观点4: 技术细节

包括数据收集、统一视觉Tokenizer、架构、预训练等方面的技术细节，以及特殊token的定义和训练目标。

关键观点5: 未来方向

Emu3为多模态AI指出了一条富有想象力的方向，未来有广泛的潜在应用，如自动驾驶、机器人大脑、智能眼镜助手等。

文章预览

新智元报道编辑：编辑部 HYZ 【新智元导读】最近，Ilya向黄仁勋描述「只要能预测下一个token，就能达到AGI」的视频再次爆火全网，他的预言刚刚竟被证实？智源研究院基于下一个token预测，发布了原生多模态世界模型Emu3，无需扩散即可理解生成三种模态数据！虽然，下一token预测已在大语言模型领域实现了ChatGPT等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型（如Stable Diffusion）和组合方法（如结合CLIP视觉编码器和LLM）所主导。 2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。 Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型，但是无需扩散模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@真的真的是最后亿个号了:我只是列了两个年代的提示词作为参考-20250425235631

9 小时前

爱可可-爱生活 · 【[98星]awesome-VLLMs：汇集视觉语言大模型（VL-20250424210555

昨天

爱可可-爱生活 · 【[162星]Dosidicus：一款基于神经网络和Hebbia-20250424211358

昨天

爱可可-爱生活 · 本文提出的测试时强化学习 (TTRL) 框架，创新性地利用大型语-20250424054419

2 天前

量子位 · 狸谱App负责人一休：从“叫爸爸”小游戏到百万月活AI爆款，社交传播有这些底层逻辑丨中国AIGC产业峰会

2 天前

神外资讯 · 【珠海病例专栏】不开颅！专家巧除颅内高风险肿瘤

8 月前

新闻夜航 · 姐姐涉嫌违法？13岁弟弟马上带到派出所！

8 月前

办公室的秘密 · 30岁还没提拔，后面就更悬了...【原创】

7 月前

北师政管 · 明规守纪，政在启航——政府管理学院2024级新生年级大会暨中秋慰问会顺利举办

7 月前

神嘛事儿 · 谨慎性原则 -20241012220146

6 月前