专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
目录
相关文章推荐
今天看啥  ›  专栏  ›  魔搭ModelScope社区

LLaMA-Omni 低延迟高质量语音交互,开源!

魔搭ModelScope社区  · 公众号  ·  · 2024-09-30 16:21

文章预览

01 引言 随着GPT-4o的发布,在语音界面的Voice-Chat越来越受到大家的关注,对于低延迟,高准确性模型的speech-to-speech的需求日益增长,来自中科院计算所NLP组的LLaMA-Omni 有效的解决了这样的需求,该模型整合了预训练的语音编码器、语音adapter、LLM和流式语音解码器,并消除了对文本输出后再语音转录的需求,能够直接从语音指令中同时生成文本和语音响应。 研究团队使用最新的Llama-3.1-8B-Instruct模型构建了 Llama-3.1-8B-Omni ,同时构建了一个名为“InstructS2S-200K”的数据集,其中包含20万个语音指令及其对应的语音响应。实验结果表明,相比于之前的语音语言模型,LLaMA-Omni在内容和风格上提供了更好的响应,并且具有极低的响应延迟,仅为226毫秒。此外,训练LLaMA-Omni仅需要不到3天的时间,在只有4个GPU的情况下进行,为未来高效开发语音语言模型铺平了道 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章