专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

北大联合字节提出多模态评估流程ConBench:揭示VLM的不一致性

PaperWeekly  · 公众号  · 科研  · 2024-06-13 13:13
    

文章预览

多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题,北京大学计算机学院联合字节跳动提出了 ConBench,弥补了这一缺陷。ConBench 评测流程简洁快速,目前合并至 LLaVA 官方推理库 lmms-eval 中,欢迎大家试用。 论文链接: https://arxiv.org/abs/2405.14156 数据集与评测代码: https://github.com/foundation-multimodal-models/ConBench 第三方库: https://github.com/EvolvingLMMs-Lab/lmms-eval ConBench 具有几个重要的亮点: 设计 1K 条 Case,每条 Case 包含判断题、选择题与限制性问答题,这三类判别式问 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览