Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

深度图学习与大模型LLM · 公众号 · · 2024-12-11 12:55

文章预览

介绍《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》大家好，今天为大家分享一篇关于多模态生成模型的研究论文——《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》。该论文提出了一种新方法，能够在。这一方法通过联合语言建模和扩散模型的目标，展示了多模态生成任务在性能和计算效率上的突破，为构建统一多模态生成框架提供了重要启发。 1. 基本信息标题 : Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 作者 : Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 研究机构 : Meta, Waymo, University of Southern California 发表时间与平台 : 2024年8月，arXiv DOI或链接 : https://arxiv.org/abs/2408.11039 1. 主要内容这篇论文主要探讨如何在单一Transformer架构中融 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博