Kyutais 语音模型 Moshi 来了！Moshi 是一种实-20240919085953

斌叔OKmath · 微博 · · 2024-09-19 08:59

文章预览

2024-09-19 08:59 本条微博链接 Kyutais 语音模型 Moshi 来了！Moshi 是一种实时语音转语音文本基础模型，可实现 160-200ms 的端到端延迟，可在设备上运行。 🤯 @kyutai_labs 在宽松的 cc-by-4.0 许可下发布了第一套开放权重、代码和技术报告。总结： 🧠 7B 参数时间变换器 🤗在 cc-by-4.0 下可用 @huggingface ⏱️在 L4 GPU 上的延迟为 160ms - 200ms 🎙️ Moshi 使用 Mimi，一种最先进的流式神经音频编解码器 🚀仅需 1.1 kbps 带宽即可实现 12.5 Hz 表 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博