王炸组合，阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

魔搭ModelScope社区 · 公众号 · · 2025-02-18 15:16

文章预览

01 前言 2025 年 2 月 18 号，阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。技术报告： https://arxiv.org/pdf/2502.10248 https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf 开源链接： https://github.com/stepfun-ai/Step-Video-T2V https://github.com/stepfun-ai/Step-Audio 模型链接： stepvideo-t2v： https://www.modelscope.cn/collections/stepvideo-t2v--wenshengshipin-238aa2a1985d40 Step-Audio： https://www.modelscope.cn/collections/Step-Audio-a47b227413534a Step-Video-T2V：性能领跑全球开源视频生成大模型这是一个最先进的 (SoTA) 文本转视频预训练模型，具有 300 亿个参数，能够生成高达 204 帧的视频。为了提高训练和推理效率，阶跃提出了一种用于视频的深度压缩 VAE，实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博