专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

视觉自回归模型综述

专知  · 公众号  ·  · 2024-11-15 10:00

文章预览

自回归模型在自然语言处理(NLP)领域取得了巨大成功。最近,自回归模型逐渐成为计算机视觉领域的重要研究方向,并在生成高质量视觉内容方面表现出色。NLP中的自回归模型通常在子词级别上进行操作,然而,在计算机视觉中,数据的表示策略可以在像素级、令牌级或尺度级进行,以反映视觉数据的多样性和层次性,这与语言的顺序结构有所不同。本综述全面梳理了视觉自回归模型的相关文献。为了提升不同学科背景的研究者的可读性,我们首先介绍视觉中的序列表示和建模基础。接着,我们将视觉自回归模型的基本框架划分为三类:基于像素、基于令牌和基于尺度的模型,这些分类基于不同的表示策略。然后,我们探讨自回归模型与其他生成模型之间的内在联系。此外,我们对计算机视觉中的自回归模型进行了多维度分类,包括图像生成、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览