专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

173-A2｜整合离散与连续（文与图）数据的生成与理解；多模态代理协作的文生视频/电影；点云几何先验图生3D，稀疏重建与姿态估计

AIGC Research · 公众号 · · 2024-08-21 15:15

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Multi-Modal｜Discrete (Text) and Continuous (Image) & Generation and Understanding Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 2024-08-20｜Meta , Waymo, USC ｜⭐️ http://arxiv.org/abs/2408.11039v1 概述在本文中，作者提出了一种新颖的多模态模型——Transfusion，旨在高效整合离散（文本）与连续（图像）数据的生成与理解。该模型通过结合语言模型的下一个令牌预测损失函数与扩散模型，实现了对混合模态序列单一转换器的训练。Transfusion的构建实现了对不同模态的有效处理，并且在文本与图像生成任务中表现出色。研究名称为“Transfusion”的技术基础建立于多种方法的预训练模型，包括文本与图像数据的结合，从而实现了模型在多个单模态与交叉模态基准上的优异表现，显示出 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博