文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|Diffusion & Multimodal VAEs Revising Multimodal VAEs with Diffusion Decoders 2024-08-29|UIC |⭐️ http://arxiv.org/abs/2408.16883v1 概述 本研究提出了一种新的 多模态变分自编码器(MDDVAE) ,旨在通过 结合扩散解码器 来提高生成任务的质量。 传统的多模态变分自编码器(VAE)在处理复杂模态(如图像)时往往存在质量下降的问题 ,这主要是由于其限制性的联合表示形式所致。现有的研究虽然采取了模态特定的表示方法有所改善,但依然未能彻底解决问题。 我们的方法通过引入灵活的扩散解码器,专门用于图像模态, 这不仅提高了图像生成质量,还对依赖前馈解码器的其他模态的性能产生了积极影响。通过融合扩散解码器,我们的模型在多个数据集上显示出较其他多模态VAE更高
………………………………