今天看啥  ›  专栏  ›  PaperAgent

对标OpenAI高级语音【Her】的Moshi,全面Open!

PaperAgent  · 公众号  ·  · 2024-09-25 11:01

文章预览

今天凌晨,OpenAI宣布 高级语音( Advanced Voice )功能将在本周内向 ChatGPT应用中的所有Plus和Team用户推出。新增自定义指令、记忆、五种新声音和改进的口音,还支持 50多种语言 ,但这项能力是闭源的! 而对标OpenAI对标OpenAI高级语音【Her】的 Moshi ,则全面Open: 论文、技术细节、权重、代码 统统开源! Moshi演示效果 Moshi 由三个主要组件组成:Helium(基于 2.1T 标记训练的 7B 语言模型)、Mimi(用于对语义和声学信息进行建模的神经音频编解码器)以及新的多流架构(用于在不同通道上联合建模来自用户和 Moshi 的音频)。 Moshi概览 。 Moshi是一个语音-文本基础模型 ,能够实现实时口语对话。Moshi架构的主要组成部分包括:一个定制的文本语言模型主干(Helium);一个带有残差向量量化的神经音频编解码器,并从自监督语音模型中提取语义知识(Mimi); ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览