专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

字节提出TiTok: 32个token实现256x256图像表示 | 清华发布多模态大海捞针...

AI for Research  · 公众号  ·  · 2024-06-12 22:50
    

文章预览

前言: 如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”! 1. 一张图片值32个令牌:重建与生成   标题: An Image is Worth 32 Tokens for Reconstruction and Generation   机构: 字节跳动   相关领域: 模型结构改进、多模态   作者: Qihang Yu,  Mark Weber,  Xueqing Deng   分析: 这篇论文主要介绍了Transformer-based 1-Dimensional Tokenizer (TiTok),一种新型的图像令牌化方法,它将图像转换为1D潜在序列,从而提供更紧凑的潜在表示。TiTok能够将256x256x3的图像压缩到仅32个离散令牌,远少于传统方法所需的256或1024个令牌。尽管其紧凑性,TiTok在性能上与当前最先进的方法相竞争,特别是在高分辨率图像生成方面,它不仅提高了生成效率,还显著降低了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览