开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

机器之心 · 公众号 · AI · 2024-09-23 14:17

主要观点总结

本文介绍了机器之心AIxiv专栏及其近期报道的上海人工智能实验室推出的新一代视频生成大模型“书生・筑梦 2.0”(Vchitect 2.0)。文章详细阐述了筑梦 2.0的核心亮点与技术细节，包括其支持长视频生成、新一代视频增强算法VEnhancer和全球首个支持长视频生成评测的框架等。同时，文章还解析了筑梦 2.0的技术细节，包括模型架构和训练框架等，并介绍了上海人工智能实验室的书生·筑梦团队的相关信息。

关键观点总结

关键观点1: 机器之心AIxiv专栏介绍及上海人工智能实验室的新模型报道

AIxiv专栏是机器之心发布学术、技术内容的栏目，近日报道了上海人工智能实验室推出的新一代视频生成大模型“书生・筑梦 2.0”。该专栏旨在促进学术交流与传播，欢迎投稿或联系报道。

关键观点2: 筑梦 2.0的核心亮点

筑梦 2.0支持5s-20s的长视频生成，具有高达720x480的分辨率。该模型能够处理多种视频格式，并同步开源了用于视频增强的生成式模型VEnhancer。此外，它还是全球首个支持长视频生成评测的框架，能够评估模型性能，尤其在长视频生成方面。

关键观点3: 筑梦 2.0的技术解析

筑梦 2.0采用了扩散式Transformer网络模型，通过并行结构的Transformer模块处理视频的空间和时间信息。同时，开源了训练和推理框架LiteGen，针对性提供了diffusion任务所需的各项优化。团队采用Activation Offload和Sequence Parallel技术优化显存使用，满足分钟级视频生成训练的计算需求。

关键观点4: 团队介绍

上海人工智能实验室的书生·筑梦团队由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的成员组成，专注于视频生成技术的前沿研究与应用开发。

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 近日，上海人工智能实验室推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍，书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。主页：https://vchitect.intern-ai.org.cn/ Github: https://github.com/Vchitect/Vchitect-2.0 本文将详细介绍筑梦 2.0 背后的核心亮点与技术细节。核心亮点 1、支持更长的视频生成：目前来看，筑梦 2.0 支持 5s-20s 长视频生成，超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博