专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

AI TIME 论道 · 公众号 · · 2024-10-30 18:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！点击阅读原文查看更多作者讲解回放！无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算不对9.11和9.9比大小的问题。同样的问题也出现在视觉模型中，它们能完美理解自然景色或人物照片，却无法处理各种图表任务，甚至看表读时间都是难题。如果要将AI系统用在更多专业领域，这些能力缺陷就显得极为突出。最近，浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准，专门衡量模型对抽象图像的理解能力和视觉推理能力。论文地址：https://arxiv.org/pdf/2407.07053 数据集共包含11,193个带有相关问题的抽象图像，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博