文章预览
2024-11-05 06:28
本条微博链接
Smol TTS 模型来了!OuteTTS-0.1-350M - 零样本语音克隆,基于 LLaMa 架构构建,CC-BY 许可!🔥 纯语言建模方法实现 TTS 零样本语音克隆 带音频标记的 LLaMa 架构(WavTokenizer) 奖励:使用 llama.cpp 在设备上工作⚡ TTS 的三步方法: 使用 WavTokenizer 进行音频标记化(每秒 75 tok) CTC 强制对齐以进行单词到音频标记映射 带转录、持续时间、音频标记的结构化提示创建 该模型对于 3.5 亿个参数来说非常令
………………………………