专栏名称: AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
目录
今天看啥  ›  专栏  ›  AI进修生

阿里通义实验室又放大招!8B 多模态语音大模型MinMo,全双工、强情感、多口音「声情并茂 · 入戏走心」

AI进修生  · 公众号  ·  · 2025-01-14 19:51
    

文章预览

🍹  Insight Daily  🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 今天,我在 Hugging Face 上看每日 Paper 时,偶然发现阿里通义实验室最新的一款多模态模型:MinMo。 它主打“可无缝语音交互”,在语音对话场景中,用起来更自然、更贴近人类的说话方式,还能支持不同的语气或方言。 当你 用英语与 MinMo 聊天,讨论电影时: 全双工语音交互 意味着用户和系统同时说话也不会乱,MinMo 可以在 100 毫秒左右将语音转成文本,并在大约 600 毫秒的理论延迟或实际约 800 毫秒的条件下,完成双向交流。 换句话说,问一句未完,MinMo 已经在分析并给出反馈,过程几乎没有停顿。 更有趣的是,它对语音生成也进行了大幅升级。 你可以指定情感、方言、说话风格,甚至是模仿某人的声音。 与 MinMo 用中文聊天,同时控制 MinMo 的口音(四 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览