专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

端侧 GPT-4o来了! 面壁发布全新端侧模型,全模态、端到端,支持实时流式音视频通话!

AI前线  · 公众号  · AI  · 2025-01-17 13:43
    

文章预览

整理 | 褚杏娟 近日,面壁智能发布并开源了全新一代小钢炮 MiniCPM-o 2.6,这款端到端模型参数规模仅 8B,但在视觉、语音和多模态方面达到了与 GPT-4o-202405 相当的性能。 据悉,MiniCPM-o 2.6 支持双语实时语音对话,声音可配置,还可以实现情绪、语速、风格控制、端到端语音克隆、角色扮演等趣味功能,并在 MiniCPM-V 2.6 的视觉能力上进行了提升,如强大的 OCR 能力、可信行为、多语言支持和视频理解。由于优越的 token 密度,MiniCPM-o 2.6 首次可以支持在 iPad 等端侧设备上进行多模态实时流。 MiniCPM-o 2.6 开源地址: GitHub: https://github.com/OpenBMB/MiniCPM-o Huggingface: https://huggingface.co/openbmb/MiniCPM-o-2_6 GPT-4o 上端? 全模态、全 SOTA MiniCPM-o 2.6 采用了端到端全模态架构,不同模态编码器 / 解码器以端到端方式连接和训练,以充分利用丰富的多模态知识;全模态 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览