专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

新智元 · 公众号 · AI · 2024-08-08 12:32

文章预览

新智元报道编辑：乔杨【新智元导读】 LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算不对9.11和9.9比大小的问题。同样的问题也出现在视觉模型中，它们能完美理解自然景色或人物照片，却无法处理各种图表任务，甚至看表读时间都是难题。如果要将AI系统用在更多专业领域，这些能力缺陷就显得极为突出。最近，浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准，专门衡量模型对抽象图像的理解能力和视觉推理能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[36星]Hugging Face Kernels：一个用于加-20250228135924

12 小时前

爱可可-爱生活 · 【[737星]Libredesk：开源的自托管客户支持桌面应用程-20250228140050

12 小时前

机器之心 · DeepSeek开源周最后一天：让数据处理「从自行车升级到高铁」

16 小时前

量子位 · DeepSeek今日连开3源！针对优化的并行策略，梁文峰本人参与开发

昨天

黄建同学 · Gemini Code Assist，打算从cursor换过去几-20250227073130

昨天

思宇MedTech · 第五批国采！人工耳蜗集采最新消息

8 月前

虎猫复利笔记 · 上车了这两只！

7 月前

ZhaoDai · 今晚招待 · Hiroko Yamamura · 芝加哥经典舞曲传奇！

7 月前