阿里通义实验室又放大招！8B 多模态语音大模型MinMo，全双工、强情感、多口音「声情并茂 · 入戏走心」

AI进修生 · 公众号 · · 2025-01-14 19:51

文章预览

🍹 Insight Daily 🪺 Aitrainee | 公众号：AI进修生 Hi，这里是Aitrainee，欢迎阅读本期新文章。今天，我在 Hugging Face 上看每日 Paper 时，偶然发现阿里通义实验室最新的一款多模态模型：MinMo。它主打“可无缝语音交互”，在语音对话场景中，用起来更自然、更贴近人类的说话方式，还能支持不同的语气或方言。当你用英语与 MinMo 聊天，讨论电影时：全双工语音交互意味着用户和系统同时说话也不会乱，MinMo 可以在 100 毫秒左右将语音转成文本，并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下，完成双向交流。换句话说，问一句未完，MinMo 已经在分析并给出反馈，过程几乎没有停顿。更有趣的是，它对语音生成也进行了大幅升级。你可以指定情感、方言、说话风格，甚至是模仿某人的声音。与 MinMo 用中文聊天，同时控制 MinMo 的口音（四 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博