文章预览
©PaperWeekly 原创 · 作者 | 姜东志 单位 | 香港中文大学MMLab 研究方向 | 多模态大语言模型 论文地址: https://arxiv.org/pdf/2502.09621 主页地址: https://mmecot.github.io 代码地址: https://github.com/CaraJ7/MME-CoT 数据集地址: https://huggingface.co/datasets/CaraJ/MME-CoT 背景 大语言模型(LLMs)中链式思维(Chain-of-Thought, CoT)的出现展示了超强的推理能力,这一点在最近的 OpenAI o1 和 DeepSeek-R1 中都得到了充分体现。然而,这一能力能多大程度地帮助视觉推理,并且我们又应该如何细粒度地评估视觉推理呢? 为此,来自港中文 MMLab 的研究者们提出了 MME-CoT。这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。 MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地研究视觉 C
………………………………