全球首发，视觉"Aha时刻"到来!华师大联合小红书提出复杂推理多模态大模型Vision-R1，7B效果直逼满血OpenAI O1

arXiv每日学术速递 · 公众号 · · 2025-03-14 12:26

文章预览

论文标题： Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models. Github仓库： https://github.com/Osilly/Vision-R1 论文链接： h ttps://arxiv.org/abs/2503.06749 研究团队：华东师范大学、小红书NLP团队激发多模态大模型复杂推理能力面对的挑战在通向通用人工智能（Artificial General Intelligence, AGI）的道路上，复杂推理能力始终是大语言模型（Large Language Models, LLMs）的重要瓶颈，而这一挑战在引入视觉模态后变得更为艰巨。这存在以下几个问题： 01 大语言模型推理火热，但多模态推理仍是短板近年来，纯文本领域推理方法（如“链式思考”、Tree-of-Thought 等）发展迅速，证明了在文本任务中，通过显式的多步推理，可极大提升模型在复杂问题上的表现。然而，这些方法大多只聚焦在文本输入上，很少考虑视觉信息。多模态大模型若只停留在“根据图像 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博