文章预览
对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。 作者 | 朱可轩 编辑 | 陈彩娴 真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。 与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 今日, 面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V —— 据介绍, MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V, 三项能力均取得 20B 以下 SOTA 成绩, 单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。 而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%, MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。 值
………………………………