连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

机器学习研究组订阅  · 公众号  · AI  · 2024-10-05 16:50

文章预览

毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了! Meta将其称为「迄今最先进的媒体基础模型」。 全新上线的大杀器Movie Gen Video,是一个30B参数的Transformer模型,可以从单个文本提示,生成高质量的高清图像和视频,视频为1080P、16秒、每秒16帧。 一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模型。通过视频输入和文本提示,它就可以可控性生成和视频同步的高保真音频,时长最长45秒。 最惊人的是,这次Meta一并连论文都发布了。 论文中,详细介绍了Movie Gen的架构、训练方法和实验结果。 论文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter _medium=organic_social _content=thread _campaign=moviegen 从论文可以看出,Movie Gen Video沿用了Transformer的设计,尤其借鉴了Llama 3。而研究人员引入的「流匹配」(Flow Matching),让视频在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览