文章预览
论文 :CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs 链接 :https://arxiv.org/pdf/2406.18521 项目 :https://charxiv.github.io 这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs》,由普林斯顿大学、威斯康星大学麦迪逊分校和香港大学的研究人员撰写。文章主要关注多模态大型语言模型(MLLMs)在理解和分析图表方面的能力和局限。 以下是对文章的简洁解读: 研究背景 :在现实世界任务中,如分析科学论文或财务报告,图表理解对MLLMs至关重要。但现有的数据集通常关注过于简化和同质化的图表,以及基于模板的问题,这导致对模型进展的评估过于乐观。 现有问题 :尽管一些开源模型在现有基准测试中表现优于专有模型,但研究表明,当图表或问题稍有变化时,性能可能下降高达34.5%。 CharXiv数据集 :文章提出了一个新
………………………………