专栏名称: 甲子光年
甲子光年是一家科技智库,包含智库、媒体、社群、企业服务版块,立足于中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,致力于推动人工智能、大数据、物联网、云计算、信息安全、金融科技、大健康等科技创新在产业之中的应用与落地。
今天看啥  ›  专栏  ›  甲子光年

智源研究院王仲远:Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年

甲子光年  · 公众号  · 科技自媒体  · 2024-10-22 20:43

主要观点总结

本文介绍了智源研究院发布的原生多模态世界模型Emu3,该模型基于下一个token预测,实现了文本、图像、视频三种模态数据的理解和生成。文章阐述了Emu3的价值和技术特点,以及相比其他多模态大模型的优势。同时,文章还讨论了多模态大模型在具身智能和科学计算等领域的应用前景。

关键观点总结

关键观点1: 智源研究院发布原生多模态世界模型Emu3,通过下一个token预测完成多模态感知和生成。

该模型实现了文本、图像、视频三种模态数据的理解和生成,超过了知名开源模型的表现。它提供了一个强大的tokenizer,能够将视频和图像转换为token,并统一到一个离散的token空间。

关键观点2: Emu3采用了自回归的技术路线,实现了生成和理解的统一。

相较于其他多模态大模型,Emu3具备更高的灵活性和可扩展性,可以复用现有的算力基础设施进行训练,节省了算力资源。同时,它还有潜力加速AI for Science的发展。

关键观点3: 多模态大模型在具身智能和科学计算等领域有广泛应用前景。

具身智能被认为是实现人工智能通用模型的关键路径之一。同时,大模型在基础科学的AI for Science领域也有重要应用,多模态大模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景的应用。


文章预览

Next-Token Prediction is All You Need。 作者|王艺 编辑|栗子 通往AGI的道路千万条,多模态大模型是极其重要的一条。 无论是Sora的发布引起的关于“世界模型”的讨论,还是Midjourney、Adobe Firefly、快手可灵、Runway Gen-3、Vidu等模型的爆火,抑或是作为具身智能机器人“大脑”出现,能感知多维环境信息、提升机器人适应性和创造力的VLM(Vision-Language-Model)……显然,多模态大模型的浪潮已不可阻挡。 据Gartner预测,建立在多模态大模型上的生成式AI应用,将从2023年的1%,激增至2027年的40%,未来的市场充满了想象空间。 然而,当今市面上绝大多数的多模态模型,要么采用Sora的Diffusion Transformer(DiT)架构,要么采用大语言模型+CLIP的训练方式。 尽管都能实现多模态的感知和生成,但是各个模态之间本质上是仍然是独立的,仍然需要各种显性或者隐性的pipeline ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览