专栏名称: 数薮智能
搜集、组织、学习、展示与大数据、自然语言处理和大语言模型相关的技术、方法、知识和成果
今天看啥  ›  专栏  ›  数薮智能

Whisper-GPT:混合表征音频大语言模型

数薮智能  · 公众号  ·  · 2024-12-21 19:34
    

文章预览

当下,利用从神经压缩算法(例如ENCODEC)派生的离散音频标记的生成式音频、语音以及音乐模型数量激增。然而,这种方法的主要缺陷之一在于对上下文长度的处理。如果必须考虑所有不同频率的音频内容才能进行下一个标记预测,那么高保真生成架构就会崩溃。通过结合连续音频表示(如频谱图)和离散声学标记,既能在单个标记中囊括特定时刻音频所需的全部信息,又能让大语言模型预测未来标记,进而实现采样以及利用离散空间所提供的其他优势。基于此,斯坦福大学团队提出了一种用于语音和音乐的生成式大型语言模型 (WHISPER-GPT),它允许在单一架构中同时处理连续音频表示和离散标记。 原标题:Whisper-GPT: A Hybrid Representation Audio Large Language Model 论文链接: https://arxiv.org/abs/2412.11449 一、主要贡献: 1、引入了第一个用于语音和音乐的混合 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览