注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
人工智能那点事
·
自导自演炒作偷拍,500万粉丝网红被抓,曾称 ...
·
18 小时前
爱可可-爱生活
·
//@风FA1120:爱老师,最后一步还要再 ...
·
昨天
爱可可-爱生活
·
[IR]《Efficient Long ...
·
3 天前
爱可可-爱生活
·
这篇论文提出了一种名为CoLoR的创新压缩模 ...
·
3 天前
爱可可-爱生活
·
【AI的”选择性失忆“】 ...
·
4 天前
今天看啥
›
专栏
›
量子位
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
量子位
·
公众号
·
AI
· 2024-06-28 19:08
文章预览
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。 该数据集名为 CharXiv ,内容全部选自arXiv论文中的真实图表,共计2323张。 相比此前的FigureQA等测试基准,CharXiv涵盖的任务类型更加广泛,而且不按套路出牌,难度大幅增加。 为了宣传这套新Benchmark,研究团队还写出了一首洗脑神曲,并制作了视频宣传片。 这段魔性的宣传片,让有些网友表示已经被成功“洗脑”,脑海中充满了 (歌词中的) “2323张图表”。 导师陈丹琦也感到印象十分深刻,直言这是自己见过最fancy的视频。 那么,CharXiv究竟新在哪,又难在哪呢? 来自学术论文的图表测试集 团队指 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
人工智能那点事
·
自导自演炒作偷拍,500万粉丝网红被抓,曾称“发现民宿针孔摄像头后被围堵”,网友怒了……
18 小时前
爱可可-爱生活
·
//@风FA1120:爱老师,最后一步还要再做一下单位转化,不是-20241227190558
昨天
爱可可-爱生活
·
[IR]《Efficient Long Context Lang-20241226060245
3 天前
爱可可-爱生活
·
这篇论文提出了一种名为CoLoR的创新压缩模型,通过在训练过程中-20241226060250
3 天前
爱可可-爱生活
·
【AI的”选择性失忆“】 #人工智能##AI创造营# -20241225080336
4 天前
21世纪经济报道
·
控股股东、高管减持,股价跳水!回应:劝不住!
5 月前
南国都市报
·
33岁保安值夜班猝死厕所,事发时曾在工作群求救......
4 月前
伏羲智库
·
清华大学联袂顶级行业专家重磅推出数据资产管理高级研修班(二期)
4 月前
果壳
·
AI乱公布电话、造谣我犯罪,我能报警抓它吗?
3 月前
电子发烧友网
·
手机直连卫星市场崛起!华为首发三网卫星通信手机,四大芯片厂商跟进
4 周前