专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

全球首个全模态理解开源端模型:长语音自动总结,图文音啥都会!300%推理速度领先,来自无问芯穹

量子位  · 公众号  · AI  · 2024-12-16 12:32
    

主要观点总结

全球首个端侧全模态理解开源模型Megrez-3B-Omni被宣布开源。该模型能够轻松处理图片、音频、文本三种模态数据,并在各个模态中取得最优性能。Megrez-3B-Omni采用了专为端侧设备量身定制的参数尺寸,综合性能表现优秀。除此之外,该模型还具备图像理解、文本理解和音频理解等多项功能,并且在推理效率和场景理解方面也有良好表现。无问芯穹技术团队表示将持续迭代Megrez系列,并推出“端模型+端软件+端IP”的端上智能一体化解决方案。

关键观点总结

关键观点1: 全球首个端侧全模态理解开源模型Megrez-3B-Omni发布

该模型具备处理图片、音频、文本三种模态数据的能力,并在各模态中取得最优性能。

关键观点2: Megrez-3B-Omni的卓越性能

模型采用专为端侧设备量身定制的参数尺寸,综合性能表现优秀,能够轻松处理各种任务。

关键观点3: 模型具备图像理解、文本理解和音频理解能力

模型在图像理解方面能够全面超过其他模型,在文本理解方面取得了全球领先地位,在音频理解方面效果比肩行业主流方案。

关键观点4: 无问芯穹技术团队的迭代计划和未来展望

团队计划持续迭代Megrez系列,提升自动化水平至“edge device use”效果,并推出“端模型+端软件+端IP”的端上智能一体化解决方案。


文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI 全球首个端侧全模态理解 开源 模型来了! 在菜单里帮忙选奶茶,不在话下: 还能帮忙轻松提炼长语音,再也不用对着一串几十秒语音头皮发麻(doge)。 就在刚刚,无问芯穹宣布开源目前 世界上首个端侧全模态理解的开源模型 Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。 在众多测评基准中,Megrez-3B-Omni 在图片、文本、音频三个模态中均取得了同尺寸下最优性能 。作为一个3B模型,综合性能表现甚至能超过34B模型。 具体来说,Megrez-3B-Omni采用了专为手机、平板等端侧设备量身定制的30亿参数黄金尺寸, 主干网络参数规模更是仅有2.3B,精度超越了上一代14B模型,最大推理速度更是比同精度模型快达300% 。 一起来看更多技术细节~ 图像理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览