专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

215-A1|多模态视觉生成,统一自回归理解与生成;自回归文生图;组件可控个性化,空间感知物体插入;几何轨迹扩散,掩码生成模型

AIGC Research  · 公众号  ·  · 2024-10-19 23:30
    

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|Multi-modal| 1. Multi-granular Visual Generation 2. Unified Understanding and Generation PUMA: Empowering Unified MLLM with Multi-granular Visual Generation   PUMA 2024-10-17|CUHK MMLab, HKU MMLab, SenseTime, Shanghai AI Lab, THU|⭐️ 🟡 http://arxiv.org/abs/2410.13861v1 https://rongyaofang.github.io/puma/ 概述 在近年来的多模态基础模型的快速发展中,视觉-语言理解取得了显著进展。然而, 现有的多模态大语言模型(MLLM)在视觉内容生成方面的潜力尚未得到充分发挥 。为了解决不同图像生成任务的多样性和可控性需求,本文提出了PUMA(emPowering Unified MLLM with Multi-granular Visual Generation)。PUMA通过统一多粒度视觉特征作为MLLM的输入和输出,优雅地满足各种图像生成任务的不同粒度要求。经过多模态预训练和任务特定的指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览