文章预览
整理 | 褚杏娟 近日,面壁智能发布并开源了全新一代小钢炮 MiniCPM-o 2.6,这款端到端模型参数规模仅 8B,但在视觉、语音和多模态方面达到了与 GPT-4o-202405 相当的性能。 据悉,MiniCPM-o 2.6 支持双语实时语音对话,声音可配置,还可以实现情绪、语速、风格控制、端到端语音克隆、角色扮演等趣味功能,并在 MiniCPM-V 2.6 的视觉能力上进行了提升,如强大的 OCR 能力、可信行为、多语言支持和视频理解。由于优越的 token 密度,MiniCPM-o 2.6 首次可以支持在 iPad 等端侧设备上进行多模态实时流。 MiniCPM-o 2.6 开源地址: GitHub: https://github.com/OpenBMB/MiniCPM-o Huggingface: https://huggingface.co/openbmb/MiniCPM-o-2_6
GPT-4o 上端? 全模态、全 SOTA MiniCPM-o 2.6 采用了端到端全模态架构,不同模态编码器 / 解码器以端到端方式连接和训练,以充分利用丰富的多模态知识;全模态
………………………………