Mini-Omni：全球首个开源实时交互模型，边说话边思考。（附整合包）

Ai秦始皇 · 公众号 · · 2024-09-04 22:36

文章预览

之前开源社区还没有一个像样的实时语音对话模型， Mini-Omni可以说是开了一个先河，相信后续基于人机的实时语音交互模型会越来越多。 Mini-Omni可以倾听、说话、思考同时进行。且具有实时端到端语音输入和流式音频输出会话能力。实测反应速度极快，仅需5G左右显存，门槛低，大部分人都能体验到。温馨提示：你可能需要准备一个麦克风跟它聊天。（官方演示）目前只支持英语对话，大家可以拿来做英语学习对话，相信大家英文都比我好。特点优势： ✅ 实时语音会话功能。无需额外的ASR或TTS模型。 ✅ 边说话边思考，具有同时生成文本和音频的功能。 ✅ 流媒体音频输出能力。 ✅ 预判能力，使用“音频到文本”和“音频至音频”批量推断以进一步提升性能。（作者实测）一键启动：这种脏活累活就由我来干吧，大家只需一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博