专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

视觉语言模型能否实现鲁棒的数学推理?UC伯克利发布测评基准DynaMath

PaperWeekly  · 公众号  · 科研  · 2024-11-23 19:35
    

文章预览

©PaperWeekly 原创 · 作者 |  Chengke Zou 单位 |  UC Berkeley 研究方向 |  多模态大语言模型 大模型的推理能力是近期大家广泛关注的焦点,但大多数研究集中在大语言模型(LLM)上。 对于数学题来说,通常需要同时结合图片的信息和题目的内容进行推理。 近期已经有一系例测试基准如 MathVista,MathVerse,MMMU 等数据集包含了图片信息,能够用来检验视觉语言模型(VLM)的数学推理能力,并且很多开源模型已经在这些数据集上取得了很好的成绩。 本论文作者测试了目前最强的视觉语言模型 GPT-4o 以及 Claude 3.5 等,在一些简单的数学题及其变体上发现了非常有趣的现象。 项目主页: https:// dynamath.github.io 论文预印版: https://huan-zhang.com/DynaMath.pdf 数据集链接: https://huggingface.co/datasets/DynaMath/DynaMath_Sample 代码链接: https://github.com/DynaMath/DynaMath 在上图中,我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览