豆包两款视频生成模型发布！多个垂类模型上新，基础模型研发全面发力！

字节跳动技术团队 · 公众号 · · 2024-09-25 15:59

主要观点总结

本文介绍了豆包大模型在火山引擎AI创新巡展深圳站的最新进展，包括新发布的豆包视频生成模型、音乐模型和同声传译模型，以及豆包大模型家族的升级情况。文章详细描述了豆包视频生成模型的技术优势，包括DiT融合计算单元、扩散模型训练方法和Transformer结构的优化。此外，还介绍了豆包音乐模型和同声传译模型的特点，以及豆包大模型家族其他成员的升级情况。

关键观点总结

关键观点1: 豆包视频生成模型的发布

包括两款视频生成模型：豆包视频生成-PixelDance和豆包视频生成-Seaweed。采用DiT融合计算单元，高效压缩编码视频与文本。全新设计的扩散模型训练方法带来一致性多镜头生成能力。优化Transformer结构，大幅提升视频生成的泛化性。

关键观点2: 豆包音乐模型和同声传译模型的发布

豆包音乐模型采用独特技术方案实现音乐生成。豆包同声传译模型采用端到端模型架构，翻译精准、高质量。两个模型均能满足多样需求。

关键观点3: 豆包大模型家族的升级

主力模型“豆包通用模型 pro”综合能力提升25%，数学能力和专业知识方面提升超过35%。语音合成模型和文生图模型也进行了升级。

关键观点4: 豆包大模型的日均tokens调用量增长

截至9月，豆包大模型的日均tokens调用量超过1.3万亿，4个月时间整体增长超过10倍。

文章预览

豆包视频生成模型于 9 月 24 日在火山引擎 AI 创新巡展深圳站发布。该模型采用高效的 DiT 融合计算单元，可更充分压缩编码视频与文本，全新设计的扩散模型训练方法带来了一致性多镜头生成能力，深度优化的 Transformer 结构大幅提升视频生成的泛化性。现场还发布了豆包音乐模型、豆包同声传译模型，另有豆包大模型家族升级。本文介绍了活动发布的核心亮点。 9 月 24 日，2024 火山引擎 AI 创新巡展深圳站带来了豆包大模型最新进展。现场重点发布了豆包视频生成模型、豆包音乐模型、豆包同声传译模型。此外，豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型也迎来升级。 1. 两款视频生成模型重磅发布，提供影视级视觉感受本次活动带来豆包视频生成-PixelDance 、豆包视频生成-Seaweed 两款大模型，现已面向企业市场开启邀测。高效 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博