专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

用ViT取代Encoder!VIM:使用 ViT 改进的 VQGAN 进行矢量量化图像生成(ICLR 2022)

AIWalker  · 公众号  ·  · 2024-07-18 19:00

文章预览

作者丨科技猛兽     编辑丨极市平台 极市导读   本文探索了在 VQGAN 里面,把图像的 Encoder 换成 ViT。本文改进之后的 ViT-VQGAN 进一步改进了矢量量化图像建模的任务,包括无条件图像生成、class-conditioned 图像生成和无监督的表征学习。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长不看版 VQGAN 使用矢量量化的办法,把图片经过分词器 (tokenizer) 之后变成 image tokens,再通过自回归的方式去建模预测下一个 token。这种 next-token prediction 的范式是受到语言模型的启发,这样训练出的模型能够在一众任务上展示出现象级别的生成能力。 本文探索了在 VQGAN 里面,把图像的 Encoder 换成 Vision Transformer (之前是 ConvNet),得到的模型称为 ViT-VQGAN。作者首先对原始的 VQGAN 进行了多种改进,包括从 architecture 到 codebook,并获得了更好的效率和重建的质量。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览