专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

173-A2|整合离散与连续(文与图)数据的生成与理解;多模态代理协作的文生视频/电影;点云几何先验图生3D,稀疏重建与姿态估计

AIGC Research  · 公众号  ·  · 2024-08-21 15:15

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-Modal|Discrete (Text) and Continuous (Image) & Generation and Understanding Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 2024-08-20|Meta , Waymo, USC |⭐️ http://arxiv.org/abs/2408.11039v1 概述 在本文中,作者提出了一种新颖的 多模态模型——Transfusion,旨在高效整合离散(文本)与连续(图像)数据的生成与理解 。该模型通过 结合语言模型的下一个令牌预测损失函数与扩散模型,实现了对混合模态序列单一转换器的训练 。Transfusion的构建实现了对不同模态的有效处理,并且在文本与图像生成任务中表现出色。研究名称为“Transfusion”的技术基础建立于多种方法的预训练模型,包括文本与图像数据的结合,从而实现了模型在多个单模态与交叉模态基准上的优异表现,显示出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览