字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

机器学习研究组订阅 · 公众号 · AI · 2024-06-22 16:21

文章预览

在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。然而，现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵，这一设计隐式的限制了token与图像之间的映射关系，导致其很难有效的利用图像中的冗余信息（比如相邻的区域经常会有类似的特征）来获得一个更加有效的图像编码。为了解决这一问题，字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer：TiTok，这一Tokenizer打破了2D Tokenizer的设计局限，可以将整个图片压缩至更为紧凑的Token序列。论文链接： https://arxiv.org/abs/2406.07550 项目链接： https://yucornetto.github.io/projects/titok.html 代码链接：http ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Urocissa 自建画廊：一个能够处理数百万张图片和视频的强-20241223131538

2 天前

宝玉xp · 类似，不过普通提示词难度反而比搜索要低一些，因为AI可以辅助生成-20241223094616

2 天前

爱可可-爱生活 · [CL]《State Space Models are Stro-20241223053613

2 天前

宝玉xp · 曾经很多人认为“提示工程师”会是未来一个重要的职业，但现在看来，-20241223025033

3 天前

宝玉xp · 转发微博-20241221161829

4 天前

医学硕博园 · 南京医科大学2025年接收推荐免试研究生（含直博生）预报名通知

3 月前

中伦视界 · 跨境S基金系列丨LP主导的美元基金S交易

1 月前