专栏名称: TsinghuaNLP

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋副教授，刘知远助理教授。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

成果 | CODIS：评估多模态大模型结合上下文理解图像的能力

TsinghuaNLP · 公众号 · · 2024-05-22 11:32

文章预览

下面这张图片中的楼梯是向上还是向下延伸的？面对一张有歧义的图片，你会怎么理解？图片中的楼梯是向上还是向下延伸？人类在进行视觉理解时有一种神奇的能力：根据上下文信息（可以是所处场景的时间或空间信息，也可以是事先知道的其他背景知识）进行解读。当上下文信息改变时，人类对图像的理解也会发生变化。当上下文信息改变时，人类对图像的理解也会发生变化，而GPT-4V等多模态模型有时缺乏根据上下文信息理解图像的能力那么，最近引人关注的多模态大模型是否也具有这种能力呢？我们针对这一问题展开了探究。评测结果表明，尽管人类完成此类任务并不存在太大困难，但多模态模型的分数普遍不高，表现最为亮眼的GPT-4V模型也仅仅正确回答了约30%的问题，远远落后于人类。多模态大模型在此项能力上有较大提升空间。 ➤ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

南方能源观察 · 海上风电有望重回快车道

4 小时前

鱼羊史记 · 唐玄宗怒对40万叛军，满朝无人敢应，太监豪言：“我去平乱，不带一兵一卒！”

2 天前

化学与材料科学 · 天津大学巩金龙教授团队 Science封面：一种高活性、高稳定性的PDH催化剂

7 月前

致众医疗器械资讯 · 【NMPA】《采用脑机接口技术的医疗器械术语及定义》等2项推荐性行业标准立项公示

5 月前

知光谷 · 每日更新：钙钛矿电池、钙钛矿LED纪录效率表(知光谷)

4 月前

Web3天空之城 · 如何赢得约会

2 月前