专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

DeepMind联合MIT团队开发Fluid,让自回归模型实现文生图的大规模扩展

DeepTech深科技  · 公众号  · 科技媒体  · 2024-10-19 19:31
    

文章预览

在视觉领域,扩散模型(diffusion model)已然成为图像生成的新范式。我们熟知的 Stable Diffusion、DALL-E 和 Imagen 等文生图工具都以扩散模型为基础。 而在语言模型领域,自回归模型(autoregressive model)则占据主导位置,大名鼎鼎的 ChatGPT 就使用了此类模型来生成回复。所谓的扩展法则(Scaling Law)在以自回归模型为基础的大模型身上展现出了强大的力量,可以有效的提升性能。 不过,如果回到视觉领域(比如文本生成图像),扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因,并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。 近日,来自 谷歌 DeepMind 和美国麻省理工学院的研究人员发表了一篇预印本论文,介绍了他们在“提升自回归文生图模型性能”方面的最新进展。 图 | 论文标题《FLUID: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览