Meta版Sora无预警来袭！抛弃扩散模型，音视频生成/画面编辑全包，92页论文无保留公开

量子位 · 公众号 · AI · 2024-10-05 00:13

主要观点总结

meta推出新的AI视频生成工具Sora，具有创建高清长视频、生成背景音乐和音效、根据文本指令编辑视频以及根据用户上传的图像生成个性化视频等功能。该工具基于先进的媒体基础模型，使用Transformer做骨干网络，并采用流匹配作为训练目标。此外，Sora还引入了多项技术创新，如因子化的可学习位置编码机制、线性-二次时间步长调度策略等。与此同时，OpenAI Sora主创之一Tim Brooks跳槽谷歌DeepMind，引发业界关注。

关键观点总结

关键观点1: Meta推出Sora，具有多种高级视频生成功能

Sora能够创建不同宽高比的高清长视频，支持1080p、16秒、每秒16帧。还能生成配套的背景音乐和音效，根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。

关键观点2: Sora基于先进的媒体基础模型

Meta的Sora建立在先进的媒体基础模型上，这一模型强调数据规模、模型大小和训练算力的扩展对于训练大规模媒体生成模型的重要性。

关键观点3: Sora采用新的技术方法

Sora使用Transformer做骨干网络，并采用流匹配作为训练目标。它引入了因子化的可学习位置编码机制、线性-二次时间步长调度策略等多项技术创新，以提高生成视频的质量和效率。

关键观点4: OpenAI Sora主创之一Tim Brooks跳槽谷歌DeepMind

Tim Brooks的离职引发业界关注，有人猜测这可能意味着OpenAI在视频生成领域的竞争可能受到影响。

文章预览

梦晨衡宇发自凹非寺量子位 | 公众号 QbitAI 刚刚，Meta抢在OpenAI之前推出自己的Sora—— Meta Movie Gen Sora有的它都有，可创建不同宽高比的高清长视频，支持1080p、16秒、每秒16帧。 Sora没有的它还有，能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。 Meta表示，这是“迄今为止最先进的媒体基础模型（Media Foundation Models） ”。只需一句“把灯笼变成飞向空中的泡泡”，就能替换视频中的物体，同时透明的泡泡正确反射了背景环境。上传一张自己的照片，就能成为AI电影的主角。生成的视频不再无声，也不只是能安一个背景音乐。比如看这里！视频会配合滑板轮子转动和落地配上逼真音效。（注意打开声音）有人表示，随着大量创作者学会使用AI视频编辑工具，很难想象几年后长视频和短 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博