专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

北大联合字节提出多模态评估流程ConBench：揭示VLM的不一致性

PaperWeekly · 公众号 · 科研 · 2024-06-13 13:13

文章预览

多模态大模型（LVLMs）取得了快速的进展，在处理视觉信息方面展现出了很强的感知和推理能力。然而，当面对不同规模解空间的问题时，LVLMs 在相同知识点上并不总能给出一致的答案，这种答案的不一致性在 LVLMs 中普遍存在，在一定程度上会损害实际的用户体验，然而现有的多模态大模型基准测试却忽视了关于一致性的评价。针对这一问题，北京大学计算机学院联合字节跳动提出了 ConBench，弥补了这一缺陷。ConBench 评测流程简洁快速，目前合并至 LLaVA 官方推理库 lmms-eval 中，欢迎大家试用。论文链接： https://arxiv.org/abs/2405.14156 数据集与评测代码： https://github.com/foundation-multimodal-models/ConBench 第三方库： https://github.com/EvolvingLMMs-Lab/lmms-eval ConBench 具有几个重要的亮点：设计 1K 条 Case，每条 Case 包含判断题、选择题与限制性问答题，这三类判别式问 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博