文章预览
©PaperWeekly 原创 · 作者 | 季慧山 单位 | 中科院信工所博士生 研究方向 | 计算机视觉 第 32 届 ACM 国际多媒体会议(ACM Multimedia 2024)预计于 10 月 28 日至 11 月 1 日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿,其中 1149 篇被录用,录用率为 26.20%。而在这 1149 篇录用的投稿中,仅有 174 篇被进一步评选为 Oral,Oral 接受率为 3.97%。本文将要介绍的是 Oral Presentation 中的一篇优选论文。 论文标题: Towards Flexible Evaluation for Generative Visual Question Answering 中文标题: 针对视觉问答生成结果的灵活评估 论文作者: Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang 项目地址: https://github.com/jihuishan/flexible_evaluation_for_vqa_mm24 论文地址: http://arxiv.org/abs/2408.00300 研究背景 ▲ 图1. 不同多模态大模型对于同一问题的不同形式的回答 随着多模态大语言模型(MLLM)的快速
………………………………