专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
今天看啥  ›  专栏  ›  数据派THU

【CMU博士论文】迈向多任务多模态模型:视频生成

数据派THU  · 公众号  · 大数据  · 2024-06-03 17:00
    

文章预览

来源:专知 本文 为论文介绍 ,建议阅读 5 分钟 我们开始在高度压缩的空间中构建学习的潜在表示,并随后制定生成模型,旨在这些受限维度内运行。 语言基础模型的进步主要推动了最近人工智能的迅猛发展 。相比之下,非文本模态的生成学习,特别是视频,显著落后于语言建模。本论文记录了我们在多任务模型构建方面的努力,旨在在多种条件下生成视频和其他模态,以及在理解和压缩应用中的探索。 我们首先介绍了用于独立多任务和多模态设置的两个像素空间原型 。尽管这些模型有效,但它们受到特定任务模块和预定义标签空间的限制,这凸显了需要更具普遍适用性的设计。 鉴于视觉数据的高维度性,我们追求简洁且准确的潜在表示。我们的视频原生时空标记器保留了高保真度。我们揭示了一种在视觉观察和可解释词汇术语之间双向映射 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览