专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

大模型智能  · 公众号  ·  · 2024-08-28 00:00

文章预览

大模型智能|分享 来源 | 新智元 编辑 | Aeneas 好困 Transformer和Diffusion,终于有了一次出色的融合。 自此,语言模型和图像生成大一统的时代,也就不远了! 这背后,正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。 论文地址:https://arxiv.org/abs/2408.11039 英伟达高级科学家Jim Fan盛赞:之前曾有很多尝试,去统一Transformer和Diffusion,但都失去了简洁和优雅。 现在,是时候来一次Transfusion,来重新激活这种融合了! 在X上,论文共一Chunting Zhou,为我们介绍了Transfusion其中的「玄机」。 为何它能让我们在一个模型中,同时利用两种方法的优势? 这是因为,Transfusion将语言建模(下一个token预测)与扩散相结合,这样,就可以在混合模态序列上训练单个Transformer。 研究者从头开始,在混合文本和图像数据上预训练了参数量高达70亿 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览