专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

OmniTokenizer-视觉tokenizer生成

瓦力算法学研所  · 公众号  ·  · 2025-01-07 21:08
    

文章预览

技术总结专栏 本文介绍一种视觉tokenizer的生成。 AIGC生成模型在人工智能领域发展迅速,视觉生成主要有基于语言模型和扩散模型两种范式,而tokenizer是其核心组件。现有tokenizer分别针对图像或视频输入设计,存在应用灵活性和数据可扩展性的局限。因此需要一种联合图像 - 视频标记器,以实现从两种数据中联合学习,缓解单模态数据稀缺问题,并提高模型的通用性和可扩展性。 今天介绍一种OmniTokenizer方法,感兴趣的小伙伴可以看看原文:https://arxiv.org/abs/2406.09399 模型架构 上图为OmniTokenize架构图,从中可以看出: OmniTokenizer 由 patch 嵌入层和独立的时空注意力块组成。 采用时空解耦架构,在空间维度使用窗口注意力机制,因其具有局部聚合能力和效率;在时间维度使用因果注意力机制,以捕捉视频中的运动并确保时间连贯性。 输入数据首先进行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览