主要观点总结
阶跃星辰与吉利汽车集团联合开源了两款阶跃Step系列多模态大模型,包括Step-Video-T2V视频生成模型和Step-Audio语音模型。这两款模型在研发过程中双方深度合作,在算力算法、场景训练等领域优势互补,显著增强多模态大模型的性能表现。其中,Step-Video-T2V在全球开源视频生成领域处于领先水平,而Step-Audio则是行业内首个产品级的开源语音交互模型,具备多种语音生成能力,可应用于多个行业场景。
关键观点总结
关键观点1: 阶跃星辰与吉利汽车集团联合开发两款多模态大模型
阶跃星辰宣布与吉利汽车集团合作开发出两款多模态大模型:Step-Video-T2V视频生成模型和Step-Audio语音模型。
关键观点2: 两款大模型的研发过程中的合作优势
在研发过程中,阶跃星辰和吉利汽车集团展开了深度合作,通过优势互补,显著增强了多模态大模型的性能表现。
关键观点3: 阶跃Step-Video-T2V和Step-Audio的性能特点及应用领域
Step-Video-T2V参数量领先且能直接生成高质量视频,Step-Audio是首个产品级开源语音交互模型,能生成自然流畅的语音并应用于多个行业场景。
关键观点4: 阶跃星辰的创始人和吉利汽车的智能化进展
阶跃星辰的创始人姜大昕曾在微软任职,吉利汽车也在智能化方面取得了显著进展,如建立了星睿智算中心和发布了星睿AI大模型。
文章预览
2月18日,阶跃星辰宣布与吉利汽车集团联合开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 阶跃星辰表示,在两款大模型的研发过程中,双方展开了深度合作,在算力算法、场景训练等领域优势互补,显著增强了多模态大模型的性能表现。 根据技术报告中的评测结果,阶跃Step-Video-T2V的参数量和模型性能目前在全球开源视频生成领域都处于领先水平,其参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频。 阶跃Step-Audio是行业内首个产品级的开源语音交互模型 ,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有自然流畅、高情商等特征,同时也能支持不同角色的音色克隆,可应用于影视娱乐、社交、游戏等行业场景。 阶跃
………………………………