专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

仅用4块GPU!中科院计算所不到3天训练出「开源版GPT-4o」

PaperWeekly  · 公众号  · 科研  · 2024-09-23 21:47

文章预览

©作者 |  小舟、陈陈 来源 |  机器之心 LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。 以 ChatGPT 为代表的大型语言模型(LLM)已成为强大的通用任务解决器,但大多数 LLM 仅支持基于文本的交互,这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而,开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。 实现与 LLM 进行语音交互最简单的方法是采用基于自动语音识别(ASR)和语音合成(TTS)模型的级联系统,其中 ASR 模型将用户的语音指令转录为文本, TTS 模型将 LLM 的响应合成为语音。 然而,由于级联系统依次输出转录文本、文本响应和语音响应,整个系统往往具有较高的延迟。相比之下,一些多模态语音 - 语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览