【CMU博士论文】迈向多任务多模态模型：视频生成，200页pdf

专知 · 公众号 · · 2024-05-29 14:00

文章预览

语言基础模型的进步主要推动了最近人工智能的迅猛发展。相比之下，非文本模态的生成学习，特别是视频，显著落后于语言建模。本论文记录了我们在多任务模型构建方面的努力，旨在在多种条件下生成视频和其他模态，以及在理解和压缩应用中的探索。我们首先介绍了用于独立多任务和多模态设置的两个像素空间原型。尽管这些模型有效，但它们受到特定任务模块和预定义标签空间的限制，这凸显了需要更具普遍适用性的设计。鉴于视觉数据的高维度性，我们追求简洁且准确的潜在表示。我们的视频原生时空标记器保留了高保真度。我们揭示了一种在视觉观察和可解释词汇术语之间双向映射的新方法。此外，我们可扩展的视觉标记表示在生成、压缩和理解任务中都证明了其优势。这一成就标志着语言模型首次在视觉合成方面超越了扩散模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博