专栏名称: CVHub
门头沟学院AI视觉实验室御用公众号 | 学术 | 科研 | 就业
今天看啥  ›  专栏  ›  CVHub

8B 端侧小模型 | 能力全面对标GPT-4V!单图、多图、视频理解端侧三冠王,这个国产AI开源项目火爆全网

CVHub  · 公众号  · 科技自媒体  · 2024-08-08 22:30

主要观点总结

本文主要介绍了一款国产开源AI项目——面壁「小钢炮」 MiniCPM-V 2.6,它在Github上受到广泛关注,并在多个方面超越GPT-4V的功能。包括单图、多图、视频理解的全面超越,以及多项功能的首次上「端」,如实时视频理解、多图联合理解等。MiniCPM-V 2.6以其高效的多模态能力,成为端侧模型的新标杆。

关键观点总结

关键观点1: 面壁「小钢炮」 MiniCPM-V 2.6项目简介

这个项目是面壁智能最新打造的大模型,再次刷新端侧多模态天花板,具有8B参数,能全面超越GPT-4V的单图、多图、视频理解能力。

关键观点2: 实时视频理解能力

MiniCPM-V 2.6首次将实时视频理解能力引入端侧模型,能够实时理解真实世界的视觉信息,是迈向具身智能的必要条件之一。

关键观点3: 多图联合理解能力

MiniCPM-V 2.6首次将多图联合理解能力集成在端侧模型中,能够实现多图的流畅理解和多轮对话,满足日常工作的刚需。

关键观点4: 高效的多模态能力

得益于统一高清视觉架构,MiniCPM-V 2.6能够在单图、多图、视频理解等方面实现高效的多模态能力迁移和共享。

关键观点5: 超强的性能和效率

MiniCPM-V 2.6具有超高的推理速度和内存占用优势,相比上代模型快33%,高达18 tokens/s的推理速度。


文章预览

导读 这两天, Github上一个 国产开源AI 项目杀疯了!一开源就登上了 Github Trending 榜前列,一天就获得将近600 star。 这个项目就是国内大模型四小龙之一面壁智能最新大打造的 面壁「小钢炮」 MiniCPM-V 2.6 。 它再次刷新端侧多模态天花板,仅8B参数, 单图、多图、视频理解全面超越 GPT-4V ! 更有 多项功能首次上「端」 :小钢炮一口气将 实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。 它端侧友好,量化后端侧 6G 内存即可使用;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。 ➤MiniCPM-V 2.6开源地址: GitHub🔗 https://github.com/OpenBMB/MiniCPM-V HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6 ➤llama.cpp、ollama、vllm 部署教程地址: 🔗https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2Dzuc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览