专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

新智元 · 公众号 · AI · 2024-10-05 09:21

主要观点总结

Meta公司发布了名为Movie Gen的新模型，它可以生成高清长视频和音频。该模型能够根据单个文本提示生成高质量的高清图像和视频，并具有编辑视频和个性化视频的功能。此外，Movie Gen还发布了92页的技术报告，详细介绍了模型的架构和训练细节。

关键观点总结

关键观点1: Movie Gen的主要特点

能够生成高质量的高清图像和视频；具有视频编辑和个性化视频的功能；支持音频生成，包括与视频同步的高保真音频。

关键观点2: 模型架构和训练

Movie Gen基于Transformer架构，尤其是借鉴了Llama 3的设计。通过预训练和微调完成模型训练，引入「流匹配」技术提高视频生成效果。模型在大量视频和图像上进行预训练，并进行了美学和运动质量方面的微调。

关键观点3: 技术亮点和创新

引入「流匹配」技术，提高了视频生成的精度和细节表现；采用创新的位置编码方法，使模型能够适应不同宽高比和任意长度的视频；采用线性-二次时间步长策略和「时间平铺」方法，提高推理速度和生成效率。

关键观点4: 模型性能评估

与当前先进的模型相比，Movie Gen在生成图像质量、画面一致性等方面取得最优表现。音频模型也表现出较高的性能，能够生成与视觉场景匹配的非画面内声音和音乐。

文章预览

新智元报道编辑：桃子 Aeneas 【新智元导读】 Meta版Sora，就在刚刚惊艳来袭。Movie Gen可生成1080p、16秒、每秒16帧的高清长视频，还能生成音效、编辑视频、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无预兆地，Meta版Sora——Movie Gen，就在刚刚抢先上线了！ Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video，是一个30B参数的Transformer模型，可以从单个文本提示，生成高质量的高清图像和视频，视频为1080P、16秒、每秒16帧。一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模型。通过视频输入和文本提示，它就可以可控性生成和视频同步的高保真音频，时长最长45秒。最惊人的是，这次Meta一并连论文都发布了。论文中，详细介绍了Movie Gen的架构、训练方法 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博