文章预览
01 前言 2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。 技术报告: https://arxiv.org/pdf/2502.10248 https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf 开源链接: https://github.com/stepfun-ai/Step-Video-T2V https://github.com/stepfun-ai/Step-Audio 模型链接: stepvideo-t2v: https://www.modelscope.cn/collections/stepvideo-t2v--wenshengshipin-238aa2a1985d40 Step-Audio: https://www.modelscope.cn/collections/Step-Audio-a47b227413534a Step-Video-T2V:性能领跑全球开源视频生成大模型 这是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频。为了提高训练和推理效率,阶跃提出了一种用于视频的深度压缩 VAE,实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提
………………………………