注册
登录
专栏名称:
我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
财联社
·
4000元手机,被小米、荣耀盯上了
·
12 小时前
财联社
·
4000元手机,被小米、荣耀盯上了
·
12 小时前
爱否科技
·
疑似 iPhone 17 ...
·
昨天
今天看啥
›
专栏
›
我爱计算机视觉
厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA
我爱计算机视觉
·
公众号
· · 2024-07-08 12:43
文章预览
关注公众号,发现CV技术之美 介绍 多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。 近日,来自厦门大学纪荣嵘团队提出了一个 全新的 多模态任务——交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型处理包含复杂图文交错信息的输入,并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在IITC任务 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
财联社
·
4000元手机,被小米、荣耀盯上了
12 小时前
财联社
·
4000元手机,被小米、荣耀盯上了
12 小时前
爱否科技
·
疑似 iPhone 17 全系采用横向镜组排列,折叠屏 iPad Pro 有望推进
昨天
淡斋达原
·
后流Q&A-12——旅行特别篇专场
4 月前