文章预览
作者丨科技猛兽 编辑丨极市平台 极市导读 本文探索了在 VQGAN 里面,把图像的 Encoder 换成 ViT。本文改进之后的 ViT-VQGAN 进一步改进了矢量量化图像建模的任务,包括无条件图像生成、class-conditioned 图像生成和无监督的表征学习。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长不看版 VQGAN 使用矢量量化的办法,把图片经过分词器 (tokenizer) 之后变成 image tokens,再通过自回归的方式去建模预测下一个 token。这种 next-token prediction 的范式是受到语言模型的启发,这样训练出的模型能够在一众任务上展示出现象级别的生成能力。 本文探索了在 VQGAN 里面,把图像的 Encoder 换成 Vision Transformer (之前是 ConvNet),得到的模型称为 ViT-VQGAN。作者首先对原始的 VQGAN 进行了多种改进,包括从 architecture 到 codebook,并获得了更好的效率和重建的质量。
………………………………