文章预览
2024-09-19 08:59
本条微博链接
Kyutais 语音模型 Moshi 来了!Moshi 是一种实时语音转语音文本基础模型,可实现 160-200ms 的端到端延迟,可在设备上运行。 🤯 @kyutai_labs 在宽松的 cc-by-4.0 许可下发布了第一套开放权重、代码和技术报告。 总结: 🧠 7B 参数时间变换器 🤗在 cc-by-4.0 下可用 @huggingface ⏱️在 L4 GPU 上的延迟为 160ms - 200ms 🎙️ Moshi 使用 Mimi,一种最先进的流式神经音频编解码器 🚀仅需 1.1 kbps 带宽即可实现 12.5 Hz 表
………………………………