又一家大模型公司，宣布开源

中国证券报 · 公众号 · 证券 · 2025-02-18 12:07

主要观点总结

阶跃星辰与吉利汽车集团联合开源了两款阶跃Step系列多模态大模型，包括Step-Video-T2V视频生成模型和Step-Audio语音模型。这两款模型在研发过程中双方深度合作，在算力算法、场景训练等领域优势互补，显著增强多模态大模型的性能表现。其中，Step-Video-T2V在全球开源视频生成领域处于领先水平，而Step-Audio则是行业内首个产品级的开源语音交互模型，具备多种语音生成能力，可应用于多个行业场景。

关键观点总结

关键观点1: 阶跃星辰与吉利汽车集团联合开发两款多模态大模型

阶跃星辰宣布与吉利汽车集团合作开发出两款多模态大模型：Step-Video-T2V视频生成模型和Step-Audio语音模型。

关键观点2: 两款大模型的研发过程中的合作优势

在研发过程中，阶跃星辰和吉利汽车集团展开了深度合作，通过优势互补，显著增强了多模态大模型的性能表现。

关键观点3: 阶跃Step-Video-T2V和Step-Audio的性能特点及应用领域

Step-Video-T2V参数量领先且能直接生成高质量视频，Step-Audio是首个产品级开源语音交互模型，能生成自然流畅的语音并应用于多个行业场景。

关键观点4: 阶跃星辰的创始人和吉利汽车的智能化进展

阶跃星辰的创始人姜大昕曾在微软任职，吉利汽车也在智能化方面取得了显著进展，如建立了星睿智算中心和发布了星睿AI大模型。

文章预览

2月18日，阶跃星辰宣布与吉利汽车集团联合开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。阶跃星辰表示，在两款大模型的研发过程中，双方展开了深度合作，在算力算法、场景训练等领域优势互补，显著增强了多模态大模型的性能表现。根据技术报告中的评测结果，阶跃Step-Video-T2V的参数量和模型性能目前在全球开源视频生成领域都处于领先水平，其参数量达到300亿，可以直接生成204帧、540P分辨率的高质量视频。阶跃Step-Audio是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。模型生成的语音具有自然流畅、高情商等特征，同时也能支持不同角色的音色克隆，可应用于影视娱乐、社交、游戏等行业场景。阶跃 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博