2024-09-01 05:48
本条微博链接
WavTokenizer设计宽广的单层向量量化编码簿空间,配合上下文建模和逆傅里叶变换解码器,实现每秒仅需40或75个token的极致压缩,同时保持语音、音乐和音频信号的高质量重建。
[AS]《WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling》S Ji, Z Jiang, X Cheng, Y Chen... [Zhejiang
………………………………