多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

FightingCV · 公众号 · · 2024-06-23 09:00

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群引言近期多模态大模型 (MLLM)在视觉文本理解领域取得了显著进展，比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、 Claude 等，甚至在某些方面展现了超越人类的能力。然而，当前的评估主要集中在英文和中文的语言环境中，对于更具挑战的多语种环境，研究还相对缺乏。在全球化的今天，多语言环境越来越多地出现在人们日常生活中，也给人工智能的发展带来了很大的挑战。MTVQA（Multilingual Text-Centric Visual Question Answering）基准测试正是在这样的背景下应运而生，专注于以多语言文字为中心的视觉问答,旨在填补现有评测基准在多语种视觉文本领域的空白。 MTVQA涵盖了阿拉伯语、韩语、日语、泰语、越南语、俄语、法语、德语和意大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

掌上铜山 · “姬发”于适剧透《封神2》：一定不会让大家失望

3 天前

掌上铜山 · “姬发”于适剧透《封神2》：一定不会让大家失望

3 天前

乌鸦电影 · 不爱吃早餐？这款绝绝子每天一个，气色好又有营养！

4 天前

BioArtMED · PLoS Biol丨贺永、廖旭红课题组及合作者揭示儿童青少年脑功能网络重叠模块的发育规律及其结构基础

2 月前

丁香学术 · JCI：南医大艾珊珊团队揭示调控小鼠心脏再生的两个关键细胞亚群

2 月前

爱青岛 · 滴滴连夜道歉！

5 天前