文章预览
©PaperWeekly 原创 · 作者 | Chengke Zou 单位 | UC Berkeley 研究方向 | 多模态大语言模型 大模型的推理能力是近期大家广泛关注的焦点,但大多数研究集中在大语言模型(LLM)上。 对于数学题来说,通常需要同时结合图片的信息和题目的内容进行推理。 近期已经有一系例测试基准如 MathVista,MathVerse,MMMU 等数据集包含了图片信息,能够用来检验视觉语言模型(VLM)的数学推理能力,并且很多开源模型已经在这些数据集上取得了很好的成绩。 本论文作者测试了目前最强的视觉语言模型 GPT-4o 以及 Claude 3.5 等,在一些简单的数学题及其变体上发现了非常有趣的现象。 项目主页: https:// dynamath.github.io 论文预印版: https://huan-zhang.com/DynaMath.pdf 数据集链接: https://huggingface.co/datasets/DynaMath/DynaMath_Sample 代码链接: https://github.com/DynaMath/DynaMath 在上图中,我们
………………………………