文章预览
思源Source报道 编辑:seefun BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成。 点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 Homepage: https://emu.baai.ac.cn/ Github: https://github.com/baaivision/Emu3 Model : https://huggingface.co/BAAI/Emu3-Gen Emu3 Emu3 在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同时不需要基于Diffison或组合多种不同架构。 Emu3 能够根据文本输入生成高质量的图像,通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。 Emu3 展现出强大的视觉语言理解能力,能
………………………………