文章预览
据介绍,Emu3证明了下一个token预测能在多模态任务中有高性能的表现。 文|李明明 日前,人工智能领域的新型研发机构智源研究院正式发布原生多模态世界模型Emu3。据介绍,该模型实现了视频、图像、文本三种模态的统一理解与生成。 当前,行业现有的多模态大模型多为对于不同任务而训练的专用模型,比如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,比如目前Sora还做不到图像和视频的理解。 而下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明。 智源研究院院长王仲远告诉《科创板日报》记者,“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基
………………………………