一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
今天看啥  ›  专栏  ›  深度学习自然语言处理

你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式

深度学习自然语言处理  · 公众号  ·  · 2024-08-20 20:54

文章预览

标题 你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式 时间 2024.8.24 10:30-11:30 周六 入群 内容大纲 1.背景-大模型数学推理能力研究现状 2.我们为什么需要更好的评估范式? 3.MathCheck评估框架设计 4.数据构建方法与数据集介绍 5.大模型在MathCheck上的性能表现 6. 数学推理中的行为分析与发现 7. 总结与展望 8. QA 引言 数学推理能力是大语言模型智能水平的重要反映。如何评估大模型真实的数学推理能力,甚至反映现实场景中的用户体验,已成为一个关键问题。目前的评估范式主要集中于求解数学问题上的性能表现,这带来了模型过拟合的巨大风险,无法准确反映模型真正的数学推理能力。 在本文中我们提出,如果模型真的理解了一个数学问题,那么它应该能够鲁棒地将其应用于关于这道题的各种数学任务。受此启发,我们提出了Math ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览