文章预览
标题 你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式 时间 2024.8.24 10:30-11:30 周六 入群 内容大纲 1.背景-大模型数学推理能力研究现状 2.我们为什么需要更好的评估范式? 3.MathCheck评估框架设计 4.数据构建方法与数据集介绍 5.大模型在MathCheck上的性能表现 6. 数学推理中的行为分析与发现 7. 总结与展望 8. QA 引言 数学推理能力是大语言模型智能水平的重要反映。如何评估大模型真实的数学推理能力,甚至反映现实场景中的用户体验,已成为一个关键问题。目前的评估范式主要集中于求解数学问题上的性能表现,这带来了模型过拟合的巨大风险,无法准确反映模型真正的数学推理能力。 在本文中我们提出,如果模型真的理解了一个数学问题,那么它应该能够鲁棒地将其应用于关于这道题的各种数学任务。受此启发,我们提出了Math
………………………………