陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

量子位 · 公众号 · AI · 2024-06-28 19:08

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI Claude 3.5 Sonnet的图表推理能力，比GPT-4o高出了27.8%。针对多模态大模型在图表任务上的表现，陈丹琦团队提出了新的测试基准。新Benchmark比以往更有区分度，也让一众传统测试中的高分模型暴露出了真实能力。该数据集名为 CharXiv ，内容全部选自arXiv论文中的真实图表，共计2323张。相比此前的FigureQA等测试基准，CharXiv涵盖的任务类型更加广泛，而且不按套路出牌，难度大幅增加。为了宣传这套新Benchmark，研究团队还写出了一首洗脑神曲，并制作了视频宣传片。这段魔性的宣传片，让有些网友表示已经被成功“洗脑”，脑海中充满了（歌词中的） “2323张图表”。导师陈丹琦也感到印象十分深刻，直言这是自己见过最fancy的视频。那么，CharXiv究竟新在哪，又难在哪呢？来自学术论文的图表测试集团队指 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博