专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
今天看啥  ›  专栏  ›  字节跳动技术团队

豆包两款视频生成模型发布!多个垂类模型上新,基础模型研发全面发力!

字节跳动技术团队  · 公众号  ·  · 2024-09-25 15:59

主要观点总结

本文介绍了豆包大模型在火山引擎AI创新巡展深圳站的最新进展,包括新发布的豆包视频生成模型、音乐模型和同声传译模型,以及豆包大模型家族的升级情况。文章详细描述了豆包视频生成模型的技术优势,包括DiT融合计算单元、扩散模型训练方法和Transformer结构的优化。此外,还介绍了豆包音乐模型和同声传译模型的特点,以及豆包大模型家族其他成员的升级情况。

关键观点总结

关键观点1: 豆包视频生成模型的发布

包括两款视频生成模型:豆包视频生成-PixelDance和豆包视频生成-Seaweed。采用DiT融合计算单元,高效压缩编码视频与文本。全新设计的扩散模型训练方法带来一致性多镜头生成能力。优化Transformer结构,大幅提升视频生成的泛化性。

关键观点2: 豆包音乐模型和同声传译模型的发布

豆包音乐模型采用独特技术方案实现音乐生成。豆包同声传译模型采用端到端模型架构,翻译精准、高质量。两个模型均能满足多样需求。

关键观点3: 豆包大模型家族的升级

主力模型“豆包通用模型 pro”综合能力提升25%,数学能力和专业知识方面提升超过35%。语音合成模型和文生图模型也进行了升级。

关键观点4: 豆包大模型的日均tokens调用量增长

截至9月,豆包大模型的日均tokens调用量超过1.3万亿,4个月时间整体增长超过10倍。


文章预览

豆包视频生成模型于 9 月 24 日在火山引擎 AI 创新巡展深圳站发布。该模型采用高效的 DiT 融合计算单元,可更充分压缩编码视频与文本,全新设计的扩散模型训练方法带来了一致性多镜头生成能力,深度优化的 Transformer 结构大幅提升视频生成的泛化性。 现场还发布了豆包音乐模型、豆包同声传译模型,另有豆包大模型家族升级。本文介绍了活动发布的核心亮点。 9 月 24 日,2024 火山引擎 AI 创新巡展深圳站带来了豆包大模型最新进展。 现场重点发布了豆包视频生成模型、豆包音乐模型、豆包同声传译模型。 此外,豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型也迎来升级。  1. 两款视频生成模型重磅发布,提供影视级视觉感受  本次活动带来豆包视频生成-PixelDance 、豆包视频生成-Seaweed 两款大模型,现已面向企业市场开启邀测。 高效 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览