主要观点总结
文章介绍了设计一种多模态自指导策略,利用大语言模型及其代码能力合成摘要图像和推理指令,为大型多模态模型(LMM)提供高质量的训练数据。策略能够自主合成多种图表、仪表板、视觉谜题等,并生成相关的推理问题答案。合成了包含11,193条指令的基准测试,涵盖了八种场景,并用于评估LMM的视觉推理能力。结果显示,当前LMM在理解和推理抽象图像方面与人类差距显著,尤其是完成日常任务如读时钟、规划路线等。文章还探讨了提升LMM抽象图像理解能力的可能途径,包括设计更通用的视觉编码器、提高图像分辨率、整合到预训练中以及调查任务间关系。
关键观点总结
关键观点1: 多模态自指导策略
设计了一种多模态自指导策略,利用大语言模型及其代码能力合成摘要图像和推理指令,为LMM提供有价值的训练数据。
关键观点2: 合成大量抽象图像和推理指令
策略能够自主合成多种图表、仪表板、视觉谜题等,并生成相关的推理问题答案。
关键观点3: 基准测试与评估
合成了包含11,193条指令的基准测试,涵盖了八种场景,用于评估LMM的视觉推理能力。
关键观点4: 当前LMM的局限性
结果显示,当前LMM在理解和推理抽象图像方面与人类差距显著,尤其是在完成日常任务时。
关键观点5: 提升LMM能力的途径
探讨了提升LMM抽象图像理解能力的可能途径,包括设计更通用的视觉编码器、提高图像分辨率等。
文章预览
摘要 尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对摘要图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级。 他们经常难以完成简单的日常任务,例如从时钟上读取时间、理解流程图或使用路线图规划路线。 鉴于此,我们设计了一个多模态自指令管道,利用大型语言模型及其代码能力在日常场景中合成大量抽象图像和视觉推理指令。 我们的策略毫不费力地创建了一个多模式基准,其中包含针对八种视觉场景的 11,193 条指令:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。 这个基准测试由简单的线条和几何元素构建而成,暴露了最先进的 LMM(如 Claude-3.5-Sonnet 和 GPT-4o)在抽象图像理解、空间关系推理和视觉元素归纳方面的缺点。 此外,为了验证合成数据
………………………………