专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench

FightingCV  · 公众号  ·  · 2024-06-23 09:00

文章预览

关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→   FightingCV交流群 引言 近期 多模态大模型 (MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、 Claude 等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。 在全球化的今天,多语言环境越来越多地出现在人们日常生活中,也给人工智能的发展带来了很大的挑战。MTVQA(Multilingual Text-Centric Visual Question Answering)基准测试正是在这样的背景下应运而生,专注于以多语言文字为中心的视觉问答,旨在填补现有评测基准在多语种视觉文本领域的空白。 MTVQA涵盖了阿拉伯语、韩语、日语、泰语、越南语、俄语、法语、德语和意大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览