今天看啥  ›  专栏  ›  包包算法笔记

Meta视频生成论文解读

包包算法笔记  · 公众号  ·  · 2024-10-17 10:00

文章预览

10月4日,meta发布了视频生成的最新研究成果-- Movie Gen, 一组 SOTA的多模态LLM ,对应多个惊艳的高质量生成 图像 、 视频 示例,支持不同长宽比和同步 音频 ,包括了 文本到视频生成、 基于用户图像的个性化视频生成、 基于精确指令的视频编辑、 视频到音频生成和文本到音频生成 。多模态LLM有了这些能力无疑离产业级应用又前进了一大步。 本文将从技术的角度对meta发布的长达92页的论文进行归纳总结,帮读者用更低的成本吸收这篇论文的精华。由于这篇论文涉及的面太广,每一节背后都涉及大量的相关工作,小编已经尽力消化加工了,如果仍觉得部分内容未讲清楚,大概率得通过原文的参考文献进一步深挖背景和细节,后续也可能会将其中的部分topic抽离出一个小专题详细展开。 meta主要通过 Movie Gen Video 和 Movie Gen Audio 两大模型实现上述这些功 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览