专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek、OpenAI、Kimi视觉推理哪家强？港中文发布全新推理基准MME-COT

PaperWeekly · 公众号 · 科研 · 2025-02-28 19:21

文章预览

©PaperWeekly 原创 · 作者 | 姜东志单位 | 香港中文大学MMLab 研究方向 | 多模态大语言模型论文地址： https://arxiv.org/pdf/2502.09621 主页地址： https://mmecot.github.io 代码地址： https://github.com/CaraJ7/MME-CoT 数据集地址： https://huggingface.co/datasets/CaraJ/MME-CoT 背景大语言模型（LLMs）中链式思维（Chain-of-Thought, CoT）的出现展示了超强的推理能力，这一点在最近的 OpenAI o1 和 DeepSeek-R1 中都得到了充分体现。然而，这一能力能多大程度地帮助视觉推理，并且我们又应该如何细粒度地评估视觉推理呢？为此，来自港中文 MMLab 的研究者们提出了 MME-CoT。这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark，包括了数学、科学、OCR、逻辑、时空和通用场景。 MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于，提出了一个严格且多方面的评估框架，细粒度地研究视觉 C ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博