专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

AI前线  · 公众号  · AI  · 2024-08-07 13:52

文章预览

整理 | 褚杏娟 8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。 据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点: “三合一”最强端侧多模态 :首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。 多项功能首次上端 :实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。 极致高效,最高多模态像素密度 :类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(to ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览