让「GPT-4V」跑在手机上，这家中国大模型公司做到了

AI科技评论 · 公众号 · 科技创业科技自媒体 · 2024-08-06 18:04

主要观点总结

面壁发布了MiniCPM-V 2.6模型，它在端侧性能上全面对标GPT-4V，具有多项突破性的功能。该模型在单图、多图、视频理解等多模态核心能力上全面超越GPT-4V，实现了SOTA成绩。此外，它还具有实时视频理解功能，提高了人机交互的自然度。该模型在知识压缩率上也表现出极致的高效，具有超高的Token Density。同时，国内其他大模型团队也在多模态方面取得了进展。

关键观点总结

关键观点1: 面壁发布了MiniCPM-V 2.6模型

这款模型在端侧性能上全面对标GPT-4V，具有多项突破性的功能。

关键观点2: 多模态核心能力超越GPT-4V

MiniCPM-V 2.6在单图、多图、视频理解等方面全面超越GPT-4V，实现了SOTA成绩。

关键观点3: 实时视频理解功能提升人机交互自然度

MiniCPM-V 2.6具有实时视频理解功能，大模型犹如拥有一双“眼睛”，能够实时看到真实世界。

关键观点4: 知识压缩率高，Token Density超高

MiniCPM-V 2.6在知识压缩率上表现出极致的高效，具有超高的Token Density，提高了模型的运行效率。

关键观点5: 国内其他大模型团队的多模态进展

除了面壁外，国内其他大模型团队也在多模态方面卯足全力，如上海人工智能实验室、联汇科技等。

文章预览

对标 GPT-4V，面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩编辑 | 陈彩娴真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V —— 据介绍， MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。而类比知识密度来看，得益于视觉 token 相比上一代下降 30% ，比同类模型低 75%， MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度（token density）。值 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

让「GPT-4V」跑在手机上，这家中国大模型公司做到了​