关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和 连续数据(图像)

深度图学习与大模型LLM  · 公众号  ·  · 2024-12-11 12:55
    

文章预览

介绍《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》 大家好,今天为大家分享一篇关于多模态生成模型的研究论文——《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》。该论文提出了一种新方法,能够在 。这一方法通过联合语言建模和扩散模型的目标,展示了多模态生成任务在性能和计算效率上的突破,为构建统一多模态生成框架提供了重要启发。 1. 基本信息 标题 : Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 作者 : Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 研究机构 : Meta, Waymo, University of Southern California 发表时间与平台 : 2024年8月,arXiv DOI或链接 : https://arxiv.org/abs/2408.11039 1. 主要内容 这篇论文主要探讨如何在单一Transformer架构中融 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览