【MetaAI】从扩展视觉分词器用于重建与生成中的经验

专知 · 公众号 · · 2025-01-19 11:00

文章预览

通过自编码的视觉分词器赋能最先进的图像和视频生成模型，通过将像素压缩到潜在空间中。尽管基于Transformer的生成器的扩展是近期进展的核心，但分词器组件本身却很少被扩展，这引发了关于自编码器设计选择如何影响其重建目标和下游生成性能的开放问题。我们的工作旨在通过探索自编码器的扩展，填补这一空白。为了促进这一探索，我们用增强版视觉Transformer架构（ViTok）替代了典型的卷积骨干网络进行分词。我们在超越ImageNet-1K的大规模图像和视频数据集上训练ViTok，消除了分词器扩展中的数据限制。我们首先研究了扩展自编码器瓶颈如何同时影响重建和生成——结果发现，尽管扩展与重建高度相关，但其与生成的关系则更为复杂。接着，我们探索了分别扩展自编码器的编码器和解码器对重建和生成性能的影响。关键发现是，扩展编码器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博