文章预览
01 引言 近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。 InternVL 2.5是基于InternVL 2.0发展而来,通过增强训练和测试策略以及提高数据质量来进一步提升性能。 该模型在多个方面进行了优化,包括视觉编码器、语言模型、数据集大小和测试时间配置等方面的研究,旨在探索模型规模与性能之间的关系。 InternVL 2.5经过广泛的评估,在多项基准测试中展现了竞争性的性能,特别是在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉地面化、多语言能力以及纯语言处理等领域。 📕 课代表划重点: 1. InternVL 2.5的开源多模态大型语言模型发布,通过数据和测试时间扩展提高
………………………………