专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

NeurIPS 2024 | 南科大、港科大等提出GITA,推进基于视觉语言模型的图推理

PaperWeekly  · 公众号  · 科研  · 2024-11-11 12:32
    

文章预览

©PaperWeekly 原创 · 作者 |  卫焱滨 单位 |  香港科技大学 本文将图结构转化为图片,利用视觉语言模型(VLM)进行一般化地图推理, 开创了“视觉语言图推理”这一属于 VQA 和图推理交叉的子领域。 核心贡献 1: GITA 框架;通过自动将图结构转化为文本图描述和视觉图像,使用图文并举的方式,首次实现平滑地将视觉语言模型纳入图推理的赛道与基于文本的大模型进行竞争,并揭示了视觉语言模型在使用相同图结构信息量时相比纯文本大模型的模式提升,其尤其擅长对局部子结构和模式的捕获和识别。 核心贡献 2: 本文同时提出该领域的第一个大规模对齐数据集 GVLQA,其以视觉语言问答对(VQA)的形式组织,可用于图推理领域中视觉和文本对齐,以及广泛评估 MLLM 的图推理性能。 核心贡献 3: 在 GVLQA 上微调出的 GITA-7B/13B 模型与 llava 具有相同的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览