专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走

PaperWeekly  · 公众号  · 科研  · 2024-06-29 23:37

文章预览

近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型 InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey,闭源模型 GPT-4o、Claude 等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。在全球化的今天,多语言环境越来越多的出现在人们日常生活中,也给人工智能的发展带来了很大的挑战。 MTVQA(Multilingual Text-Centric Visual Question Answering)基准测试正是在这样的背景下应运而生,专注于以多语言文字为中心的视觉问答,旨在填补现有评测基准在多语种视觉文本领域的空白。 MTVQA 涵盖了阿拉伯语、韩语、日语、泰语、越南语、俄语、法语、德语和意大利语等 9 种语言,收集整理了自然场景和文档场景下的多语种富文本图片,如菜单、路标、地图、账 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览