Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

人工智能学家 · 公众号 · AI · 2024-10-05 19:08

主要观点总结

本文介绍了Meta新推出的媒体基础模型Movie Gen，包括其视频和音频生成功能。Movie Gen使用了30B参数的Transformer模型，可以从单个文本提示生成高质量的高清图像和视频。同时推出的还有Movie Gen Audio，这是一个13B参数的Transformer模型，可以通过视频输入和文本提示生成同步的高保真音频。此外，Movie Gen还发布了92页的技术报告，详细介绍了模型的技术细节和实现方法。该模型在精度和细节表现上优于扩散模型，能够生成不同宽高比的高清长视频，并提供了个性化视频功能。在音频方面，它可以为视频生成高质量的音效和音乐，并与输入视频实现同步。总的来说，Movie Gen在AI视频领域树立了新的标准。

关键观点总结

关键观点1: Movie Gen是Meta新推出的媒体基础模型，包括视频和音频生成功能。

使用了Transformer模型，可从文本提示生成高质量图像和视频。

关键观点2: Movie Gen采用了流匹配技术，在精度和细节表现上优于扩散模型。

能够生成不同宽高比的高清长视频，并提供了个性化视频功能。

关键观点3: Movie Gen Audio可以生成高质量的电影音效和音乐，并与输入视频实现同步。

该模型在音频生成方面也有出色表现，能够处理不同长度的音频生成。

关键观点4: Movie Gen发布了92页的技术报告，详细介绍了模型的技术细节和实现方法。

报告涵盖了模型架构、预训练、微调、流匹配技术等方面的内容。

文章预览

来源：机器学习研究组订阅毫无预兆地，Meta版Sora——Movie Gen，就在刚刚抢先上线了！ Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video，是一个30B参数的Transformer模型，可以从单个文本提示，生成高质量的高清图像和视频，视频为1080P、16秒、每秒16帧。一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模型。通过视频输入和文本提示，它就可以可控性生成和视频同步的高保真音频，时长最长45秒。最惊人的是，这次Meta一并连论文都发布了。论文中，详细介绍了Movie Gen的架构、训练方法和实验结果。论文地址：https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter _medium=organic_social _content=thread _campaign=moviegen 从论文可以看出，Movie Gen Video沿用了Transformer的设计，尤其借鉴了Llama 3。而研究人员引入的「流匹配 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

Web3天空之城 · Sam Altman TED2025最新访谈：AGI 临近？开放模型、安全边界与人类抉择| 全文+视频

15 小时前

Web3天空之城 · Sam Altman TED2025最新访谈：AGI 临近？开放模型、安全边界与人类抉择| 全文+视频

15 小时前

机器之心 · 魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

昨天

新智元 · 永别了，GPT-4！

昨天

宝玉xp · 让 GPT 根据你的历史记忆创作一幅个人专属的创意科技工作场景图-20250412101625

昨天

人工智能学家 · GPT-4.5证明 Scaling Law 持续有效｜Sam Altman最新直播实录

2 天前

高工机器人 · 加速推动软件新质生产力发展，格创东智出席软件创新发展大会

10 月前

FM93交通之声 · 多地景区官宣：免门票！

7 月前

新机器视觉 · 神经网络RNN图解！

7 月前

下厨房 · 这早餐爱惨了！5分钟就能吃上，成本才3元！

3 月前