专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI TIME 论道

多模态模型在抽象图表上堪忧,它能充当合格的智能助手么?

AI TIME 论道  · 公众号  ·  · 2024-10-30 18:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击  阅读原文  查看更多作者讲解回放! 无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。 语言模型已经可以写诗写小说了,但是依旧算不对9.11和9.9比大小的问题。 同样的问题也出现在视觉模型中,它们能完美理解自然景色或人物照片,却无法处理各种图表任务,甚至看表读时间都是难题。 如果要将AI系统用在更多专业领域,这些能力缺陷就显得极为突出。 最近,浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准,专门衡量模型对抽象图像的理解能力和视觉推理能力。 论文地址:https://arxiv.org/pdf/2407.07053 数据集共包含11,193个带有相关问题的抽象图像,涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章