文章预览
2024-11-19 08:32
本条微博链接
这个试下来效果不错,非常实时,而且是开源的。 Ultravox 是一种新型的多模态 LLM,它可以理解文本和人类语音,而无需单独的音频语音识别 (ASR) 阶段。在AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究的基础上,Ultravox 能够使用多模态投影仪扩展任何开放重量 LLM,该投影仪将音频直接转换为 LLM 使用的高维空间。我们已经在 Llama 3、Mistral 和 Gemma 上训练了版本。这种直接耦合使 Ultravox 的响应速度比结
………………………………