文章预览
打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 在文生图领域,扩散模型一直占据着主导地位。 尽管自回归模型展现出了其强大的能力,但是其视觉生成的质量仍然落后于基于扩散的方法。主要因素是标记器性能有限。 标记器通常被认为是视觉生成的上限,劣质的现成标记器将导致生成质量差。为了释放标记器的潜力,MAGVIT-v2中提出了无查找量化器,从而实现高度码激活和超大码本,并实现了比扩散模型更好的生成质量。然而,如此强大的视觉标记器是完全闭源的,到目前为止我们还无法访问它,这限制了学术界的发展。 本文介绍了腾讯开源实现的Open-MAGVIT2,这是一个从300M到1.5B的自回归图像生成模型家族。Open-MAGVIT2项目是一个基于谷歌MAGVIT-v2标记器的开源作品,这是一种具有超大型码本的标记器,并在ImageNet
………………………………