专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

魔搭ModelScope社区  · 公众号  ·  · 2025-02-18 15:16
    

文章预览

01 前言 2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。 技术报告: https://arxiv.org/pdf/2502.10248 https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf 开源链接: https://github.com/stepfun-ai/Step-Video-T2V https://github.com/stepfun-ai/Step-Audio 模型链接: stepvideo-t2v: https://www.modelscope.cn/collections/stepvideo-t2v--wenshengshipin-238aa2a1985d40 Step-Audio: https://www.modelscope.cn/collections/Step-Audio-a47b227413534a             Step-Video-T2V:性能领跑全球开源视频生成大模型 这是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频。为了提高训练和推理效率,阶跃提出了一种用于视频的深度压缩 VAE,实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览