专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

“闭门造车”之多模态思路浅谈:自回归学习与生成

PaperWeekly  · 公众号  · 科研  · 2024-07-11 22:04

文章预览

©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 这篇文章我们继续来闭门造车,分享一下笔者最近对多模态学习的一些新理解。 在前文 《“闭门造车”之多模态思路浅谈:无损》 中,我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立,那么当前基于 VQ-VAE、VQ-GAN 等将图像离散化的主流思路就存在能力瓶颈,因为只需要简单计算一下信息熵就可以表明离散化必然会有严重的信息损失,所以更有前景或者说更长远的方案应该是输入连续型特征,比如直接将图像的原始像素特征 Patchify 后输入到模型中。 然而,连续型输入对于图像理解自然简单,但对图像生成来说则引入了额外的困难,因为非离散化无法直接套用文本的自回归框架,多少都要加入一些新内容如扩散,这就引出了本文的主题——如何进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览