专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成

量子位  · 公众号  · AI  · 2025-04-03 10:12
    

文章预览

V²Flow团队 发自 凹非寺 量子位 | 公众号 QbitAI 视觉T oken可以与LLMs 词表无缝对齐了! V²Flow,基于LLMs可以实现高保真自回归图像生成。 随着ChatGPT掀起自回归建模革命后,近年来研究者们开始探索自回归建模在视觉生成任务的应用,将视觉和文本数据统一在“next-token prediction”框架下。 实现自回归图像生成的关键是设计向量化(Vector-Quantization)的视觉Tokenizer,将视觉内容离散化成类似于大语言模型词表的离散Token。 现有方法虽取得进展,却始终面临两大桎梏: 1、 传统视觉tokenizer生成的离散表征与LLM词表存在显著的分布偏差。 2、 维度诅咒:图像的二维结构迫使大语言模型以逐行方式预测视觉token,与一维文本的连贯语义预测存在本质冲突。 结构性与特征分布性的双重割裂,暴露了当前自回归视觉生成的重大缺陷:缺乏能够既保证高保真图像重建, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览