专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

Google推出MaskGIT:革新图像生成的掩码式Transformer

arXiv每日学术速递  · 公众号  ·  · 2024-09-23 13:27

文章预览

摘要 在计算机视觉领域,生成式Transformer在合成高保真度和高分辨率图像方面获得了迅速普及。 然而,到目前为止,最好的生成式Transformer模型仍然将图像简单地视为一系列符元,并根据光栅扫描顺序(即逐行)对图像进行顺序解码。 我们发现这种策略既不理想也不高效。 本文提出了一种使用双向Transformer解码器的新型图像合成范式,我们将其称为MaskGIT。 在训练期间,MaskGIT学习通过关注所有方向的符元来预测随机掩码的符元。 在推理时,模型从同时生成图像的所有符元开始,然后根据之前的生成迭代地细化图像。 我们的实验表明,MaskGIT在ImageNet数据集上显著优于最先进的Transformer模型,并将自回归解码速度提高了64倍。 此外,我们说明MaskGIT可以轻松地扩展到各种图像编辑任务,例如修复、外推和图像操作。 图1 :  MaskGIT在图像合成和操 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览