专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

Qwen2.5-Math 技术报告详解

吃果冻不吐果冻皮  · 公众号  ·  · 2024-10-23 21:42

文章预览

原文:https://zhuanlan.zhihu.com/p/865777418 简介 Qwen2.5-Math 是 Qwen2-Math 的升级版本,包括基础模型 Qwen2.5-Math-1.5B/7B/72B,指令微调模型Qwen2.5-Math-1.5B/7B/72B-Instruct 和数学奖励模型 Qwen2.5-Math-RM-72B。 相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列扩展为同时支持使用思维链和 工具集成推理(TIR)  解决 中英双语 的数学题。Qwen2.5-Math 系列相比上一代 Qwen2.5-Math 在中文和英文的数学解题能力上均实现了显著提升。 图1:在MATH上的效果 图2: 开源数据集评测 此外,使用 TIR 能进一步提升模型效果。 图3:使用TIR工具调用能进一步提升效果 下面是一个使用 TIR 的例子: 图4: 使用TIR 由于使用 TIR 需要调用 Agent,因此如果是直接推理,模型的输出会有问题。 下面的例子中,代码正确的结果应该是((159, 160, 161, 162), 642) ,如果不掉用 Agent,模型依然会 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览