统一多模态模型来了！智源发布多模态世界模型Emu3！

魔搭ModelScope社区 · 公众号 · · 2024-10-24 18:50

文章预览

2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型使用单一的Transformer进行训练，并通过将图像、文本和视频等不同模态的数据转化为离散空间中的令牌来进行预测。只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成，并超越传统任务特定模型的效果，在生成和感知任务中都达到了SOTA的水平。此外，该模型还可以生成高保真度的视频序列。研究团队认为，这种方法是构建跨语言多模态智能的重要一步，并开源了关键技术和模型以支持进一步的研究。模型效果：在图像生成方面，通过自动化评价指标对Emu3在四个流行文本到图像基准数据集（MSCOCO-30K、GenEval、T2I-CompBench和DPG-Bench）上的性能进行了评估。结果表明，尽管Emu3没有使用任何预训练的语言模型，但在与扩散方法、自 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科幻世界SFW · 科幻赋能教育，想象点亮未来：想象力教育工程走进眉山

23 小时前

中国日报双语新闻 · 研究：“夜猫子”的认知功能更强

8 月前

危险废物处置联盟 · 危废——你违法了吗？

3 月前

封面新闻 · 北方年味浓，旅游闹新春：成都新婚夫妇北京 “环球中国年”蜜月游

1 月前

鹰潭市场监管 · 鹰潭市市场监管局开展食品生产企业“百企千坊”帮扶行动

3 周前