专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

AINLPer  · 公众号  ·  · 2024-11-24 22:14
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 tokenizer对于图像、视频生成的重要性值得重视。 在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是非常重要的组件。 谷歌等机构的研究者曾在一篇题为「Language model Beats diffusion - tokenizer is key to visual generation」的论文中证明,一个好的 tokenizer 接入到语言模型后,能够立即获得比当时最好的 diffusion 模型还要好的效果。论文作者蒋路在后来接受采访时表示,「我们的研究可能会让社区意识到 tokenizer 是被严重忽视的一个领域,值得发力去做」。 在图像、视频生成模型中,tokenizer 的核心作用是将连续的、高维的视觉数据(如图像和视频帧)转换成模型可以处理的形式,即紧凑的语义 token,它的视觉表示能力对于模型的训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览