文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击 阅读原文 查看更多作者讲解回放! 无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。 语言模型已经可以写诗写小说了,但是依旧算不对9.11和9.9比大小的问题。 同样的问题也出现在视觉模型中,它们能完美理解自然景色或人物照片,却无法处理各种图表任务,甚至看表读时间都是难题。 如果要将AI系统用在更多专业领域,这些能力缺陷就显得极为突出。 最近,浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准,专门衡量模型对抽象图像的理解能力和视觉推理能力。 论文地址:https://arxiv.org/pdf/2407.07053 数据集共包含11,193个带有相关问题的抽象图像,涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D
………………………………