【NLP】仅用4块GPU、不到3天训练出「开源版GPT-4o」，这是国内团队最新研究

机器学习初学者 · 公众号 · · 2024-09-25 12:00

文章预览

机器之心报道编辑：小舟、陈陈 LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型（LLM）已成为强大的通用任务解决器，但大多数 LLM 仅支持基于文本的交互，这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而，开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。实现与 LLM 进行语音交互最简单的方法是采用基于自动语音识别（ASR）和语音合成（TTS）模型的级联系统，其中 ASR 模型将用户的语音指令转录为文本， TTS 模型将 LLM 的响应合成为语音。然而，由于级联系统依次输出转录文本、文本响应和语音响应，整个系统往往具有较高的延迟。相比之下，一些多模态语音 - 语言模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博