文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|Multi-modal| 1. Multi-granular Visual Generation 2. Unified Understanding and Generation PUMA: Empowering Unified MLLM with Multi-granular Visual Generation PUMA 2024-10-17|CUHK MMLab, HKU MMLab, SenseTime, Shanghai AI Lab, THU|⭐️ 🟡 http://arxiv.org/abs/2410.13861v1 https://rongyaofang.github.io/puma/ 概述 在近年来的多模态基础模型的快速发展中,视觉-语言理解取得了显著进展。然而, 现有的多模态大语言模型(MLLM)在视觉内容生成方面的潜力尚未得到充分发挥 。为了解决不同图像生成任务的多样性和可控性需求,本文提出了PUMA(emPowering Unified MLLM with Multi-granular Visual Generation)。PUMA通过统一多粒度视觉特征作为MLLM的输入和输出,优雅地满足各种图像生成任务的不同粒度要求。经过多模态预训练和任务特定的指
………………………………