专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

新智元  · 公众号  · AI  · 2024-08-08 12:32
    

文章预览

   新智元报道   编辑:乔杨 【新智元导读】 LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。 无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。 语言模型已经可以写诗写小说了,但是依旧算不对9.11和9.9比大小的问题。 同样的问题也出现在视觉模型中,它们能完美理解自然景色或人物照片,却无法处理各种图表任务,甚至看表读时间都是难题。 如果要将AI系统用在更多专业领域,这些能力缺陷就显得极为突出。 最近,浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准,专门衡量模型对抽象图像的理解能力和视觉推理能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览