专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

DeepSeek、OpenAI、Kimi视觉推理哪家强?港中文发布全新推理基准MME-COT

PaperWeekly  · 公众号  · 科研  · 2025-02-28 19:21
    

文章预览

©PaperWeekly 原创 · 作者 |  姜东志 单位 |  香港中文大学MMLab 研究方向 |  多模态大语言模型 论文地址: https://arxiv.org/pdf/2502.09621 主页地址: https://mmecot.github.io 代码地址: https://github.com/CaraJ7/MME-CoT 数据集地址: https://huggingface.co/datasets/CaraJ/MME-CoT 背景 大语言模型(LLMs)中链式思维(Chain-of-Thought, CoT)的出现展示了超强的推理能力,这一点在最近的 OpenAI o1 和 DeepSeek-R1 中都得到了充分体现。然而,这一能力能多大程度地帮助视觉推理,并且我们又应该如何细粒度地评估视觉推理呢? 为此,来自港中文 MMLab 的研究者们提出了 MME-CoT。这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。 MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地研究视觉 C ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览