文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-Modal|Discrete (Text) and Continuous (Image) & Generation and Understanding Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 2024-08-20|Meta , Waymo, USC |⭐️ http://arxiv.org/abs/2408.11039v1 概述 在本文中,作者提出了一种新颖的 多模态模型——Transfusion,旨在高效整合离散(文本)与连续(图像)数据的生成与理解 。该模型通过 结合语言模型的下一个令牌预测损失函数与扩散模型,实现了对混合模态序列单一转换器的训练 。Transfusion的构建实现了对不同模态的有效处理,并且在文本与图像生成任务中表现出色。研究名称为“Transfusion”的技术基础建立于多种方法的预训练模型,包括文本与图像数据的结合,从而实现了模型在多个单模态与交叉模态基准上的优异表现,显示出
………………………………