专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
目录
今天看啥  ›  专栏  ›  夕小瑶科技说

再也不吹GPT-4V了!手机能跑的国产模型刷爆多模态SOTA,实时端上视频理解!

夕小瑶科技说  · 公众号  ·  · 2024-08-06 19:11

文章预览

夕小瑶科技说 分享 再次刷新端侧多模态天花板, 面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新 ! 仅8B参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标超越 GPT-4V 水平 。 更有 多项功能首次上「端」 :小钢炮一口气将 实时视频理解、多图联合理解(还包括多图OCR、多图ICL等)能力首次搬上端侧多模态模型 ,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。 亮点众多,延续了「小钢炮」系列一贯的以小博大与高效低成本,划重点如下: 「三合一」最强端侧多模态 :首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。 多项功能首次上端 :实时视频理解 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览