充分利用视觉信息多问多答合成数据，提升多模态大模型数学推理能力

数据派THU · 公众号 · 大数据 · 2024-07-27 17:00

文章预览

本文约2000字，建议阅读 9 分钟本文讲述了随着多模态大模型的发展，模型能够处理视觉语言输入进行多模态数学推理等现象。论文题目： Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models 论文链接： https://arxiv.org/abs/2406.17294 开源链接： https://github.com/HZQ950419/Math-LLaVA 01 动机和背景近年来，大语言模型在数学推理中取得优异的表现，随着多模态大模型的发展，模型能够处理视觉语言输入进行多模态数学推理。然而，现有的视觉指令数据集中，每张图像对应有限的问题答案数据对，没有充分利用视觉信息来增强多模态大模型的数学推理能力。为此，我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问，以及对问题数据进行增强，构建了一个高质量、多样化的合成多模态问答数据集，从而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博