专栏名称: 络绎科学
专业的科创成果产业化社区,与青年科学家同行。
今天看啥  ›  专栏  ›  络绎科学

MIT何恺明团队与Deepmind合作开发模型Fluid,让Scaling Law在视觉自回归模型中一样有效!

络绎科学  · 公众号  ·  · 2024-10-21 18:25
    

文章预览

缩放定律(Scaling Law)是大语言模型(Large Language Model,LLM)取得成功的关键之一,但在视觉自回归模型中,情况却完全不同。 不断扩大自回归模型的规模,并不能让其在视觉领域中的性能飞升。 相比之下,扩散模型凭借其生成过程中的多步优化,展现出更强的图像生成能力和视觉细节表现,这使得部分学者开始怀疑,缩放定律真的适用视觉领域吗? 不过,由于自回归模型在文生图等跨模态应用及全局结构调整能力等方面还具有较大潜力。因此,我们还是有必要进一步理解自其在计算机视觉生成任务中的缩放行为。 于是,针对这种性能差距,Google DeepMind 与麻省理工学院 何恺明 团队提出了假设。 他们认为,图像生成任务中常用的向量量化(Vector Quantization, VQ)步骤可能引入了大量信息损失,限制了模型的生成能力。相比之下,使用连续的 token 表 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览