专栏名称: 自动驾驶之星

自动驾驶之星，是一个以自动驾驶量产交流为主的社区。这里有自动驾驶量产第一线的前沿动态，有一群奋斗在自动驾驶量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Emu3: 统一多模态输入与生成

自动驾驶之星 · 公众号 · · 2024-09-30 06:00

文章预览

思源Source报道编辑：seefun BAAI刚刚开源了Emu3多模态大模型，仅使用单个transformer，使用下一个token预测的方法从0进行训练！通过将图像、文本和视频tokenize到一个统一的离散的空间中，直接通过预测下一个token实现文本、图像和视频生成。点击下方卡片，关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 Homepage: https://emu.baai.ac.cn/ Github: https://github.com/baaivision/Emu3 Model : https://huggingface.co/BAAI/Emu3-Gen Emu3 Emu3 在生成和感知任务中超越了多个任务的专用模型，表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2，同时不需要基于Diffison或组合多种不同架构。 Emu3 能够根据文本输入生成高质量的图像，通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。 Emu3 展现出强大的视觉语言理解能力，能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博