专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

深度学习与NLP  · 公众号  ·  · 2024-10-06 00:00

文章预览

来源 |  新智元 毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了! Meta将其称为「迄今最先进的媒体基础模型」。 全新上线的大杀器Movie Gen Video,是一个30B参数的Transformer模型,可以从单个文本提示,生成高质量的高清图像和视频,视频为1080P、16秒、每秒16帧。 一同推出的还有Movie Gen Audio。这是一个13B参数的Transformer模型。通过视频输入和文本提示,它就可以可控性生成和视频同步的高保真音频,时长最长45秒。 最惊人的是,这次Meta一并连论文都发布了。 论文中,详细介绍了Movie Gen的架构、训练方法和实验结果。 论文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter _medium=organic_social _content=thread _campaign=moviegen 从论文可以看出,Movie Gen Video沿用了Transformer的设计,尤其借鉴了Llama 3。而研究人员引入的「流匹配」(Flow Matchi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览