专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

万字长文深度解读Movie Gen技术原理(5部曲):图像&视频联合生成模型 (2)

AINLP  · 公众号  ·  · 2024-10-16 10:18

文章预览

引言 简介 图像和视频基础模型 时间自编码器(TAE) 训练目标 骨干架构 文本嵌入和视觉-文本生成 空间上采样 模型扩展和训练效率 预训练 预训练数据 训练 微调STF 微调数据集创建 监督微调 & 模型平均 推理 推理提示重写 提高推理效率 评估 评估维度 评估基准 评估讨论 结果 与之前工作的比较 消融实验 TAE结果 TAE消融实验 空间上采样器结果 文本生成图像 方法 结果 总结 1. 引言 继续基于Meta官方发布的 92页Movie Gen技术报告 详细解读Movie Gen模型。今天这篇长作文主要介绍Movie Gen中的核心: 图像和视频的联合生成 。 2. 简介 今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览