【CMU博士论文】迈向多任务多模态模型：视频生成

数据派THU · 公众号 · 大数据 · 2024-06-03 17:00

文章预览

来源：专知本文为论文介绍，建议阅读 5 分钟我们开始在高度压缩的空间中构建学习的潜在表示，并随后制定生成模型，旨在这些受限维度内运行。语言基础模型的进步主要推动了最近人工智能的迅猛发展。相比之下，非文本模态的生成学习，特别是视频，显著落后于语言建模。本论文记录了我们在多任务模型构建方面的努力，旨在在多种条件下生成视频和其他模态，以及在理解和压缩应用中的探索。我们首先介绍了用于独立多任务和多模态设置的两个像素空间原型。尽管这些模型有效，但它们受到特定任务模块和预定义标签空间的限制，这凸显了需要更具普遍适用性的设计。鉴于视觉数据的高维度性，我们追求简洁且准确的潜在表示。我们的视频原生时空标记器保留了高保真度。我们揭示了一种在视觉观察和可解释词汇术语之间双向映射 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

国家数据局 · 2024年“数据要素×”大赛优秀项目案例集——工业制造案例之三 | 工业品价格大数据赋能供应链协同管理效能提升

4 天前

万能的大熊 · 我当年也有这种错误的想法产品质量差的品牌怎么能成功呢？欸，你还-20240710205930

6 月前

雪球 · 【7月11日涨停分析】今日共77股涨停，连板股总数10只，22股-20240711152732

6 月前

郑州本地宝 · 郑州出发！最快6小时直达香港！

2 月前

艾瑞咨询 · 2024年第二季度中国手机银行APP监测报告

2 月前