专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

Ai fighting · 公众号 · · 2024-10-20 07:00

文章预览

像 GPT-4o 这样的模型通过语音实现了与大型语言模型（LLMs）的实时交互，与基于文本的传统交互相比，显著提升了用户体验。然而，目前在如何构建基于开源 LLMs 的语音交互模型方面仍缺乏探索。为了解决这个问题，我们提出了 LLaMA-Omni，这是一个新颖的模型架构，旨在与 LLMs 进行低延迟和高质量的语音交互。LLaMA-Omni 集成了一个预训练的语音编码器、一个语音适配器、一个 LLM 和一个流式语音解码器。它消除了语音转录的需要，并且能够直接从语音指令中同时生成文本和语音响应，延迟极低。我们基于最新的 Llama-3.1-8BInstruct 模型构建了我们的模型。为了使模型与语音交互场景保持一致，我们构建了一个名为 InstructS2S-200K 的数据集，其中包含 200K 条语音指令和相应的语音响应。实验结果表明，与以前的语音-语言模型相比，LLaMA-Omni 在内容和风格上都 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博