文章预览
点击下方 卡片 ,关注“ AI生成未来 ” 最近多模态大语言模型(MLLM)的激增从根本上重塑了AI研究和产业的格局,为通往下一个AI里程碑的道路指明了有希望的方向。 然而,要使MLLM在现实世界的应用中变得实用,仍然存在重大挑战。 最明显的挑战来自于运行具有大量参数和广泛计算需求的MLLM的巨大成本。 结果,大多数MLLM只能部署在高性能的云服务器上,这大大限制了它们的应用范围,如移动设备、离线、能耗敏感和注重隐私/保护的场景。 在这项工作中,我们介绍了MiniCPM-V,一系列可在端侧设备上部署的高效MLLM。 通过整合最新的MLLM技术在架构、预训练和对齐方面,最新的MiniCPM-Llama3-V 2.5具有几个显著特点:(1)强大的性能,在OpenCompass上超过了GPT-4V-1106、Gemini Pro和Claude 3,OpenCompass是一个涵盖11个流行基准的全面评估,(2)强大的OCR能力,支持1.8M像素的高分辨率图像感知,
………………………………