专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

215-A1｜多模态视觉生成，统一自回归理解与生成；自回归文生图；组件可控个性化，空间感知物体插入；几何轨迹扩散，掩码生成模型

AIGC Research · 公众号 · · 2024-10-19 23:30

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Image Generation｜Multi-modal｜ 1. Multi-granular Visual Generation 2. Unified Understanding and Generation PUMA: Empowering Unified MLLM with Multi-granular Visual Generation PUMA 2024-10-17｜CUHK MMLab, HKU MMLab, SenseTime, Shanghai AI Lab, THU｜⭐️ 🟡 http://arxiv.org/abs/2410.13861v1 https://rongyaofang.github.io/puma/ 概述在近年来的多模态基础模型的快速发展中，视觉-语言理解取得了显著进展。然而，现有的多模态大语言模型（MLLM）在视觉内容生成方面的潜力尚未得到充分发挥。为了解决不同图像生成任务的多样性和可控性需求，本文提出了PUMA（emPowering Unified MLLM with Multi-granular Visual Generation）。PUMA通过统一多粒度视觉特征作为MLLM的输入和输出，优雅地满足各种图像生成任务的不同粒度要求。经过多模态预训练和任务特定的指 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博