专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

MiniCPM-Llama3-V 2.5首次在端侧实现了GPT-4V级的多模态能力

PaperAgent  · 公众号  ·  · 2024-05-20 18:28
    

文章预览

面壁智能 开源了  MiniCPM-Llama3-V 2.5 ,增强了 OCR 能力,支持 30 多种语言,并首次在端侧实现了 GPT-4V 级的多模态能力! MiniCPM-V系列模型特点对比: MiniCPM-Llama3-V 2.5、 MiniCPM-V 2.0、 MiniCPM-V 1.0 性能评估 评测结果TextVQA, DocVQA, OCRBench, OpenCompass, MME, MMBench, MMMU, MathVista, LLaVA Bench, RealWorld QA, Object HalBench. 典型示例 将 MiniCPM-Llama3-V 2.5 部署在小米 14 Pro 上,并录制了以下演示视频,以2倍速播放视频。 https: //github.com/OpenBMB/MiniCPM-V model:https: //huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 demo:http: //120.92.209.146:8889/ 推荐阅读 •  对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO •  2024:ToB、Agent、多模态 •  TA们的RAG真正投产了吗?(上) •  Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图) 欢迎关注我的公众号“ PaperAgent ”, 每天一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览