今天看啥  ›  专栏  ›  机器之心SOTA模型

今日开源(2025-04-01):B站开源IndexTTS,工业级零样本TTS系统,拼音校正+标点控制停顿,性能超越主流方案

机器之心SOTA模型  · 公众号  ·  · 2025-04-01 18:31
    

文章预览

🏆基座模型 ①项目:IndexTTS  ★IndexTTS 是一个工业级的可控且高效的零样本文本到语音(TTS)系统。 该系统主要基于XTTS和Tortoise模型,能够通过拼音校正中文字符的发音,并通过标点符号控制任意位置的停顿。 系统的多个模块得到了增强,包括改进说话人条件特征表示和集成BigVGAN2以优化音频质量。 经过数万小时的数据训练,IndexTTS在性能上超越了当前流行的TTS系统,如XTTS、CosyVoice2、Fish-Speech和F5-TTS。 ☆一键收藏: https://sota.jiqizhixin.com/project/indextts 🤖 Agent开发 ①项目:VAGEN ★ VAGEN是一个专为训练视觉语言模型(VLM)智能体而设计的多轮强化学习框架。它利用了TRICO算法来高效训练VLM以执行视觉智能体任务。 VAGEN通过选择性标记和跨轮次信用分配来优化决策关键的标记,并在交互轮次之间创建更细致的奖励结构,从而解决了传统强化学习框架在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览