豆包大模型视觉、语音能力升级！文生图更懂“国风”，TTS“拿捏”情绪

字节跳动技术团队 · 公众号 · · 2024-08-06 17:00

文章预览

2024 火山引擎 AI 创新巡展・成都站于近日正式举办。活动现场发布了豆包・图生图模型，以及升级版的豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。本文介绍了升级版文生图、语音合成、声音复刻模型特征，包括图像生成方面更深刻理解主客体关系、空间构造等特点，语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。日均 tokens 使用量突破 5000 亿——近日，2024 火山引擎 AI 创新巡展・成都站上，豆包大模型最新进展对外公布。一同发布的，还有豆包・图生图模型，以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。今年 5 月，字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

大J小D · 孩子狡辩找理由，争论是最糟糕的办法

2 天前

中国能建 · 1000兆瓦“光热+光伏”项目，首批并网发电！

2 天前

育学园 · 这 4 种面包，真的要少吃！

3 天前

科学家庭育儿 · 打印机都卷成这样了？打印、学习一步搞定，这对CP我磕到了！小三位数搞定！

4 天前

常青藤爸爸 · 我的鞋子会呼吸！貌美、舒服、暴走都不累！

4 天前

嵌入式微处理器 · 程序员就业新选择：平均薪资超1.8万元/月，五年以上经验2.5万元！

4 月前