专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

量子位  · 公众号  · AI  · 2024-06-28 19:08
    

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。 该数据集名为 CharXiv ,内容全部选自arXiv论文中的真实图表,共计2323张。 相比此前的FigureQA等测试基准,CharXiv涵盖的任务类型更加广泛,而且不按套路出牌,难度大幅增加。 为了宣传这套新Benchmark,研究团队还写出了一首洗脑神曲,并制作了视频宣传片。 这段魔性的宣传片,让有些网友表示已经被成功“洗脑”,脑海中充满了 (歌词中的) “2323张图表”。 导师陈丹琦也感到印象十分深刻,直言这是自己见过最fancy的视频。 那么,CharXiv究竟新在哪,又难在哪呢? 来自学术论文的图表测试集 团队指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览