文章预览
当下,利用从神经压缩算法(例如ENCODEC)派生的离散音频标记的生成式音频、语音以及音乐模型数量激增。然而,这种方法的主要缺陷之一在于对上下文长度的处理。如果必须考虑所有不同频率的音频内容才能进行下一个标记预测,那么高保真生成架构就会崩溃。通过结合连续音频表示(如频谱图)和离散声学标记,既能在单个标记中囊括特定时刻音频所需的全部信息,又能让大语言模型预测未来标记,进而实现采样以及利用离散空间所提供的其他优势。基于此,斯坦福大学团队提出了一种用于语音和音乐的生成式大型语言模型 (WHISPER-GPT),它允许在单一架构中同时处理连续音频表示和离散标记。 原标题:Whisper-GPT: A Hybrid Representation Audio Large Language Model 论文链接: https://arxiv.org/abs/2412.11449 一、主要贡献: 1、引入了第一个用于语音和音乐的混合
………………………………