连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

机器学习研究组订阅  · 公众号  · AI  · 2024-06-22 16:21
    

文章预览

在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。 然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。 为了解决这一问题, 字节跳动豆包大模型团队和慕尼黑工业大学 提出了全新的1D图像Tokenizer:TiTok,这一Tokenizer打破了2D Tokenizer的设计局限,可以将整个图片压缩至更为紧凑的Token序列。 论文链接: https://arxiv.org/abs/2406.07550  项目链接: https://yucornetto.github.io/projects/titok.html 代码链接 :http ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览