文章预览
🍹 Insight Daily 🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 今天,我在 Hugging Face 上看每日 Paper 时,偶然发现阿里通义实验室最新的一款多模态模型:MinMo。 它主打“可无缝语音交互”,在语音对话场景中,用起来更自然、更贴近人类的说话方式,还能支持不同的语气或方言。 当你 用英语与 MinMo 聊天,讨论电影时: 全双工语音交互 意味着用户和系统同时说话也不会乱,MinMo 可以在 100 毫秒左右将语音转成文本,并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下,完成双向交流。 换句话说,问一句未完,MinMo 已经在分析并给出反馈,过程几乎没有停顿。 更有趣的是,它对语音生成也进行了大幅升级。 你可以指定情感、方言、说话风格,甚至是模仿某人的声音。 与 MinMo 用中文聊天,同时控制 MinMo 的口音(四
………………………………