专栏名称: 自动驾驶之星
自动驾驶之星,是一个以自动驾驶量产交流为主的社区。这里有自动驾驶量产第一线的前沿动态,有一群奋斗在自动驾驶量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
目录
今天看啥  ›  专栏  ›  自动驾驶之星

Emu3: 统一多模态输入与生成

自动驾驶之星  · 公众号  ·  · 2024-09-30 06:00

文章预览

思源Source报道 编辑:seefun BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成。 点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 Homepage:  https://emu.baai.ac.cn/ Github:  https://github.com/baaivision/Emu3 Model : https://huggingface.co/BAAI/Emu3-Gen Emu3 Emu3 在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同时不需要基于Diffison或组合多种不同架构。  Emu3 能够根据文本输入生成高质量的图像,通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。  Emu3 展现出强大的视觉语言理解能力,能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览