专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

PaperWeekly · 公众号 · 科研 · 2024-11-23 19:35

文章预览

©PaperWeekly 原创 · 作者 | Chengke Zou 单位 | UC Berkeley 研究方向 | 多模态大语言模型大模型的推理能力是近期大家广泛关注的焦点，但大多数研究集中在大语言模型（LLM）上。对于数学题来说，通常需要同时结合图片的信息和题目的内容进行推理。近期已经有一系例测试基准如 MathVista，MathVerse，MMMU 等数据集包含了图片信息，能够用来检验视觉语言模型（VLM）的数学推理能力，并且很多开源模型已经在这些数据集上取得了很好的成绩。本论文作者测试了目前最强的视觉语言模型 GPT-4o 以及 Claude 3.5 等，在一些简单的数学题及其变体上发现了非常有趣的现象。项目主页： https:// dynamath.github.io 论文预印版： https://huan-zhang.com/DynaMath.pdf 数据集链接： https://huggingface.co/datasets/DynaMath/DynaMath_Sample 代码链接： https://github.com/DynaMath/DynaMath 在上图中，我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博