专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
今天看啥  ›  专栏  ›  AIGC新智界

全球最大开源视频模型,现在也Created in China了,阶跃出品

AIGC新智界  · 公众号  · 比特币  · 2025-02-18 17:53
    

主要观点总结

阶跃星辰联合吉利汽车集团开源了两款多模态大模型:Step-Video-T2V和Step-Audio。这两款模型在Benchmark中表现优秀,性能超过国内外同类开源模型。Step-Video-T2V可以直接生成视频,最长可达204帧,分辨率540P,并引入Video-VAE技术提高生成效率。Step-Audio是行业内首款产品级开源语音交互大模型,具备高逼真度和丰富的语音表达能力。阶跃星辰的开源行动旨在促进大模型技术的共享与创新,推动人工智能的普惠发展。同时,通过开源策略降低产业接入门槛,吸引更多开发者使用其模型。中国开源力量正在壮大,阶跃星辰的开源行动是中国开源力量崛起的一个缩影。

关键观点总结

关键观点1: 开源两款多模态大模型

阶跃星辰联合吉利汽车集团开源了Step-Video-T2V和Step-Audio两款多模态大模型,这是国内首次开源此类模型。

关键观点2: 模型性能表现优秀

这两款模型在Benchmark中表现优秀,性能超过国内外同类开源模型,经过实测验证其效果。

关键观点3: Step-Video-T2V的技术特点

Step-Video-T2V可以生成最长204帧、分辨率540P的视频,并引入Video-VAE技术提高生成效率。此外,它还具有先进的预训练和后训练策略,包括训练效率的提升和Video-DPO算法的引入。

关键观点4: Step-Audio的特点

Step-Audio是行业内首款产品级开源语音交互大模型,具备高逼真度和丰富的语音表达能力。它可以根据不同的场景需求生成不同风格的语音表达,与用户进行高质量对话。

关键观点5: 开源行动的目的

阶跃星辰的开源行动旨在促进大模型技术的共享与创新,推动人工智能的普惠发展。通过开源策略降低产业接入门槛,吸引更多开发者使用其模型。

关键观点6: 中国开源力量的崛起

随着阶跃星辰的开源行动和中国开源力量的壮大,中国在全球开源领域的影响力不断提升。阶跃星辰的开源行动是中国开源力量崛起的一个缩影。


文章预览

图片来源:由无界AI生成 刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型! 新模型共2款: 全球范围内参数量最大的开源视频生成模型Step-Video-T2V 行业内首款产品级开源语音交互大模型Step-Audio 多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。 (老规矩,GitHub、抱抱脸、魔搭直通车可见文末) 在两款大模型的研发过程中,双方在算力算法、场景训练等领域优势互补,“显著增强了多模态大模型的性能表现”。 从官方公布的技术报告来看,这次开源的两款模型在Benchmark中表现优秀,性能超过国内外同类开源模型。 抱抱脸官方也转发了中国区负责人给予的高度评价。 划重点,“The next DeepSeek”、“HUGE SoTA”。 哦,是吗? 那量子位可要在本篇文章中掰开技术报告+一手实测 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览