注册
登录
专栏名称:
PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
PaperWeekly
·
毕业论文AI率自查神器,复旦、UCSD、UI ...
·
昨天
实验万事屋
·
经常发表10+SCI文章的博士生应该知道,表 ...
·
昨天
研之成理
·
郑州大学王烨、代书阁和新加坡科技与设计大学杨 ...
·
2 天前
小张聊科研
·
四个“可变(替代性)”机制,顶刊上的研究是怎 ...
·
4 天前
今天看啥
›
专栏
›
PaperWeekly
NeurIPS 2024 | 南科大、港科大等提出GITA,推进基于视觉语言模型的图推理
PaperWeekly
·
公众号
·
科研
· 2024-11-11 12:32
文章预览
©PaperWeekly 原创 · 作者 | 卫焱滨 单位 | 香港科技大学 本文将图结构转化为图片,利用视觉语言模型(VLM)进行一般化地图推理, 开创了“视觉语言图推理”这一属于 VQA 和图推理交叉的子领域。 核心贡献 1: GITA 框架;通过自动将图结构转化为文本图描述和视觉图像,使用图文并举的方式,首次实现平滑地将视觉语言模型纳入图推理的赛道与基于文本的大模型进行竞争,并揭示了视觉语言模型在使用相同图结构信息量时相比纯文本大模型的模式提升,其尤其擅长对局部子结构和模式的捕获和识别。 核心贡献 2: 本文同时提出该领域的第一个大规模对齐数据集 GVLQA,其以视觉语言问答对(VQA)的形式组织,可用于图推理领域中视觉和文本对齐,以及广泛评估 MLLM 的图推理性能。 核心贡献 3: 在 GVLQA 上微调出的 GITA-7B/13B 模型与 llava 具有相同的 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
PaperWeekly
·
毕业论文AI率自查神器,复旦、UCSD、UIUC等提出多语种通用AI内容检测器
昨天
实验万事屋
·
经常发表10+SCI文章的博士生应该知道,表观遗传不好做!看了这杭州师范大学11.7分的Science子刊,我更难了……
昨天
研之成理
·
郑州大学王烨、代书阁和新加坡科技与设计大学杨会颖教授在钠金属负极亲钠隔膜方面取得进展
2 天前
小张聊科研
·
四个“可变(替代性)”机制,顶刊上的研究是怎么做的?
4 天前
奥松传感
·
发布了头条文章:《气体质量流量控制器在晶圆制造过程中的关键作用》-20240628135025
6 月前
四局装备
·
【安全管理】云南分公司“三聚焦”答好新时代“网络答卷”
3 月前
MAOLivehouse广州太古仓店
·
虚位以待 | MAOLivehouse广州太古仓店 | 现场执行兼职&摄影志愿者招聘
3 月前