今天看啥  ›  专栏  ›  Ai秦始皇

Mini-Omni:全球首个开源实时交互模型,边说话边思考。(附整合包)

Ai秦始皇  · 公众号  ·  · 2024-09-04 22:36

文章预览

之前开源社区还没有一个像样的实时语音对话模型, Mini-Omni可以说是开了一个先河,相信后续基于人机的实时 语音 交互模型会越来越多。 Mini-Omni可以 倾听、说话、思考 同时进行 。 且 具有实时端到端语音输入和流式音频输出 会话能力。实测反应速度极快,仅需5G左右显存,门槛低,大部分人都能体验到。 温馨提示: 你可能需要准备一个麦克风跟它聊天。 (官方演示) 目前只支持英语对话,大家可以拿来做英语学习对话,相信大家英文都比我好。 特点优势: ✅  实时语音 会话功能。无需额外的ASR或TTS模型。 ✅  边说话边思考 ,具有同时生成文本和音频的功能。 ✅  流媒体音频输出 能力。 ✅ 预判能力 ,使用“音频到文本”和“音频至音频”批量推断 以进一步提升性能。 (作者实测) 一键启动: 这种脏活累活就由我来干吧,大家只需一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览