文章预览
2024-09-19 10:59
本条微博链接
在我看来, @kyutai_labs 的惊人发布中一个被低估的产物是 Mimi,他们自制的音频编解码器🎶 为什么值得铭记? ---- 1. 它的帧速率为 12.5Hz,这意味着每秒只有 12.5 个“音频令牌”。相比之下,44KHz DAC 的帧速率为 86Hz。 - 你的音频模型不需要产生那么多的标记来生成语音- 生成速度更快,成本更低🏎️ ---- 2.第一个码本是语义的。 - 您的音频模型将对语音有更好的语义理解。 ---- 3. 它在编码器和解
………………………………