大规模视觉-语言模型的基准、评估、应用与挑战

专知 · 公众号 · · 2025-02-11 11:00

文章预览

多模态视觉语言模型（VLMs）作为一种变革性技术，出现在计算机视觉与自然语言处理的交叉领域，使得机器能够通过视觉和文本两种模态感知和推理世界。例如，像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型，在视觉和文本数据上展示了强大的推理和理解能力，并在零-shot 分类任务中超过了传统的单模态视觉模型 [108]。尽管在研究中的快速进展和在应用中的日益普及，关于VLM的现有研究的综合综述仍然显著缺乏，特别是对于那些希望在特定领域利用VLM的研究者。为此，我们在以下几个方面提供了VLM的系统性概述：[1] 过去五年（2019-2024）中开发的主要VLM模型的信息；[2] 这些VLM的主要架构和训练方法；[3] 对VLM的流行基准和评估指标的总结和分类；[4] VLM的应用，包括具身智能体、机器人技术和视频生成；[5] 当前VLM面临的挑战和问题，如幻觉、 fairness（公 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 蒸汽发生器污染物是否要按照含氧量折算？有无明确依据？

16 小时前

环保人 · 危废转移量与接收量是否允许出现误差？省厅答复有根有据

16 小时前

环保人 · 蒸汽发生器污染物是否要按照含氧量折算？有无明确依据？

昨天

环保人 · 项目重大变动能用原来的项目名称吗？

昨天

环保人 · 环评大气预测资料2000，一键智能填报排污许可季报、自行监测、执行报告等

2 天前

奥派经济学 · 精读《货币与信用理论》100讲：第38讲不同种类货币之间的静态或自然交换比率

6 月前

电船纪元 · 我国新能源内河船项目加速落地：绿色航运的新时代机遇与挑战

3 周前