专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
今天看啥  ›  专栏  ›  歸藏的AI工具箱

Kyutai 开源 Moshi,一个可以进行实时语音对话的文本语-20240919141527

歸藏的AI工具箱  · 微博  ·  · 2024-09-19 14:15

文章预览

2024-09-19 14:15 本条微博链接 Kyutai 开源 Moshi,一个可以进行实时语音对话的文本语音模型。 #ai# 期待类似的开源中文实时语音模型。 而且发了技术报告,里面有一些实现细节。 Moshi 采用多流架构,能够同时处理用户和系统的语音输入,并生成相应的语音输出。 Moshi 的理论延迟为160ms,实际为200ms,远低于自然对话中的几秒钟延迟。 Moshi 能够同时处理语音和文本信息,支持复杂的对话动态,包括同时说话和打断。 Moshi 支 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览