Whisper-GPT：混合表征音频大语言模型

数薮智能 · 公众号 · · 2024-12-21 19:34

文章预览

当下，利用从神经压缩算法（例如ENCODEC）派生的离散音频标记的生成式音频、语音以及音乐模型数量激增。然而，这种方法的主要缺陷之一在于对上下文长度的处理。如果必须考虑所有不同频率的音频内容才能进行下一个标记预测，那么高保真生成架构就会崩溃。通过结合连续音频表示（如频谱图）和离散声学标记，既能在单个标记中囊括特定时刻音频所需的全部信息，又能让大语言模型预测未来标记，进而实现采样以及利用离散空间所提供的其他优势。基于此，斯坦福大学团队提出了一种用于语音和音乐的生成式大型语言模型 (WHISPER-GPT)，它允许在单一架构中同时处理连续音频表示和离散标记。原标题：Whisper-GPT: A Hybrid Representation Audio Large Language Model 论文链接： https://arxiv.org/abs/2412.11449 一、主要贡献： 1、引入了第一个用于语音和音乐的混合 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博