专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  智源社区

明日直播|模型死记硬背的推理路径,是真正的智能么?王梦迪组

智源社区  · 公众号  ·  · 2025-02-26 14:22
    

文章预览

报告主题: MATH-Perturb:评估大语言模型在面对复杂改动时的数学推理能力 报告日期: 02 月27日(本周四)10:30-11:30 报告要点: 大型语言模型在高难度数学推理任务上展现出了令人惊叹的能力,这引发了其是由真正的推理能力还是记忆能力(背题)所驱动的讨论。为了探讨这个问题,先前的研究通过简单改动构建了许多数学基准测试 —— 简单扰动过的问题仍然保留了解决方案的基本推理模式。然而,尚无研究探索“复杂改动”(hard perturbations),即从根本上改变问题的本质,使得原始的解题步骤不再适用。 为弥补这一空白,我们分别通过简单改动和复杂改动构建了MATH-P-Simple 和 MATH-P-Hard。每个数据集包含 279 道改动的数学题,这些题目均源自 MATH 数据集中最难等级的问题。我们在多个模型上观察到 MATH-P-Hard 任务的显著性能下降,包括 o1-mini(下降 1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览