文章预览
关注公众号,发现CV技术之美 多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题,北京大学计算机学院联合字节跳动提出了ConBench (Unveiling the Tapestry of Consistency in Large Vision-Language Models) ,弥补了这一缺陷。ConBench评测流程简洁快速,目前合并至LLaVA官方推理库lmms-eval中,欢迎大家试用。 论文链接:https://arxiv.org/abs/2405.14156 数据集与评测代码:https://github.com/foundation-multimodal-models/ConBench 第三方库:https://github.com/EvolvingLMMs-Lab/lmms-eval ConBench 具有几个重要的亮点:
………………………………