专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
DataFunTalk  ·  电子书上新 ... ·  2 天前  
DataFunTalk  ·  电子书上新 ... ·  2 天前  
今天看啥  ›  专栏  ›  数据派THU

充分利用视觉信息多问多答合成数据,提升多模态大模型数学推理能力

数据派THU  · 公众号  · 大数据  · 2024-07-27 17:00

文章预览

本文 约2000字 ,建议阅读 9 分钟 本 文讲述了 随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理等现象。 论文题目: Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models 论文链接: https://arxiv.org/abs/2406.17294 开源链接: https://github.com/HZQ950419/Math-LLaVA 01 动机和背景 近年来,大语言模型在数学推理中取得优异的表现,随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理。然而,现有的视觉指令数据集中,每张图像对应有限的问题答案数据对,没有充分利用视觉信息来增强多模态大模型的数学推理能力。 为此,我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问,以及对问题数据进行增强,构建了一个高质量、多样化的合成多模态问答数据集,从而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览