文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|Masked Generative Transformers Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis 2024-10-10|Alibaba Group, Skywork AI, HKUST(GZ), HKUST, ZJU, UC Berkeley|⭐️ http://arxiv.org/abs/2410.08261v1 https://huggingface.co/MeissonFlow/Meissonic 概述 本文介绍了一种新型的文本到图像生成模型Meissonic,该模型通过 非自回归的掩码图像建模(MIM)技术 ,提升了图像生成的效率和质量。尽管扩散模型如Stable Diffusion在视觉生成领域取得了显著进展,但其与自回归语言模型的操作机制存在显著差异,这使得将语言和视觉任务统一的开发变得复杂。Meissonic通过一系列架构创新、先进的位置信息编码策略和优化采样条件,显著提高了MIM的性能和效率。该模型不仅能生成1024×1024分辨率
………………………………