专栏名称: 科情智库
宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
今天看啥  ›  专栏  ›  科情智库

国内机构开源首个端到端语音对话模型Mini-Omni,开启实时语音对话

科情智库  · 公众号  ·  · 2024-09-30 07:30

文章预览

科情智库 8月30日,我国通用人工智能公司启元世界宣布开源首个端到端语音对话模型Mini-Omni。该模型通过简化语音识别与生成的流程,实现更加自然和流畅的人机对话体验。Mini-Omni具有独特的技术架构,采用端到端的训练框架,从音频输入到文本输出,再到语言生成,全部通过一个模型实现。相较于以往需要多个模块配合的系统,Mini-Omni能显著降低延迟和资源消耗,提升响应速度与效率。为了验证方案的有效性,Mini-Omni在使用仅0.5B的小模型和少量开源及合成数据的情况下,在实时语音问答及语音识别等方面表现出很好的效果。此外,该模型还具备良好的适应性,能够针对不同场景进行微调,从客服、语音助手到车载系统等多种应用场景都能胜任,展现出较大的市场潜力。 来源:AI中心供稿 推荐阅读 > 清华大学团队发布分子预训练框架,登上Nature ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览