今天看啥  ›  专栏  ›  AI科技评论

让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

AI科技评论  · 公众号  · 科技创业 科技自媒体  · 2024-08-06 18:04
    

主要观点总结

面壁发布了MiniCPM-V 2.6模型,它在端侧性能上全面对标GPT-4V,具有多项突破性的功能。该模型在单图、多图、视频理解等多模态核心能力上全面超越GPT-4V,实现了SOTA成绩。此外,它还具有实时视频理解功能,提高了人机交互的自然度。该模型在知识压缩率上也表现出极致的高效,具有超高的Token Density。同时,国内其他大模型团队也在多模态方面取得了进展。

关键观点总结

关键观点1: 面壁发布了MiniCPM-V 2.6模型

这款模型在端侧性能上全面对标GPT-4V,具有多项突破性的功能。

关键观点2: 多模态核心能力超越GPT-4V

MiniCPM-V 2.6在单图、多图、视频理解等方面全面超越GPT-4V,实现了SOTA成绩。

关键观点3: 实时视频理解功能提升人机交互自然度

MiniCPM-V 2.6具有实时视频理解功能,大模型犹如拥有一双“眼睛”,能够实时看到真实世界。

关键观点4: 知识压缩率高,Token Density超高

MiniCPM-V 2.6在知识压缩率上表现出极致的高效,具有超高的Token Density,提高了模型的运行效率。

关键观点5: 国内其他大模型团队的多模态进展

除了面壁外,国内其他大模型团队也在多模态方面卯足全力,如上海人工智能实验室、联汇科技等。


文章预览

对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。 作者 | 朱可轩 编辑 | 陈彩娴 真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。 与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 今日, 面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V —— 据介绍, MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V, 三项能力均取得 20B 以下 SOTA 成绩, 单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。 而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%, MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。 值 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览