今天看啥  ›  专栏  ›  字节跳动技术团队

豆包大模型视觉、语音能力升级!文生图更懂“国风”,TTS“拿捏”情绪

字节跳动技术团队  · 公众号  ·  · 2024-08-06 17:00

文章预览

2024 火山引擎 AI 创新巡展 ・ 成都站于近日正式举办。活动现场发布了豆包・图生图模型,以及升级版的豆包 ・ 文生图模型、豆包 ・ 语音合成模型、豆包 ・ 声音复刻模型。 本文介绍了升级版文生图、语音合成、声音复刻模型特征,包括图像生成方面更深刻理解主客体关系、空间构造等特点,语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。 日均 tokens 使用量突破 5000 亿——近日,2024 火山引擎 AI 创新巡展・成都站上,豆包大模型最新进展对外公布。一同发布的,还有豆包・图生图模型,以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。 今年 5 月,字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览