专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

模型可以边听边说了!字节发布全双工建模LSLM!港科大发布突破1位限制的二进制大模型研究!

AI for Research  · 公众号  ·  · 2024-08-06 23:07
    

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、数据集构建的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 语言模型可以边听边说   标题: Language Model Can Listen While Speaking   机构: 字节跳动   关键词: 全双工建模、交互式语音语言模型、语音生成、实时交互   作者: Ziyang Ma,  Yakun Song,  Chenpeng Du   分析: 这篇论文主要探索了交互式语音语言模型(iSLM)中的全双工建模(FDM),重点在于增强实时交互,更具体地说,探索了打断的精髓。作者引入了一种新的模型设计,即边听边说的语音语言模型(LSLM),这是一种端到端系统,配备了听和说两个通道。LSLM使用了一个基于令牌的解码器仅TTS进行语音生成,并使用流自监督学习(SSL)编码器进行实时音频输入。LSLM融合了这两个通道进行自回归生成,并实时检测语境转换。三种 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览