文章预览
面壁智能 开源了 MiniCPM-Llama3-V 2.5 ,增强了 OCR 能力,支持 30 多种语言,并首次在端侧实现了 GPT-4V 级的多模态能力! MiniCPM-V系列模型特点对比: MiniCPM-Llama3-V 2.5、 MiniCPM-V 2.0、 MiniCPM-V 1.0 性能评估 评测结果TextVQA, DocVQA, OCRBench, OpenCompass, MME, MMBench, MMMU, MathVista, LLaVA Bench, RealWorld QA, Object HalBench. 典型示例 将 MiniCPM-Llama3-V 2.5 部署在小米 14 Pro 上,并录制了以下演示视频,以2倍速播放视频。 https: //github.com/OpenBMB/MiniCPM-V model:https: //huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 demo:http: //120.92.209.146:8889/ 推荐阅读 • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO • 2024:ToB、Agent、多模态 • TA们的RAG真正投产了吗?(上) • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图) 欢迎关注我的公众号“ PaperAgent ”, 每天一
………………………………