文章预览
原文:https://zhuanlan.zhihu.com/p/865777418 简介 Qwen2.5-Math 是 Qwen2-Math 的升级版本,包括基础模型 Qwen2.5-Math-1.5B/7B/72B,指令微调模型Qwen2.5-Math-1.5B/7B/72B-Instruct 和数学奖励模型 Qwen2.5-Math-RM-72B。 相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列扩展为同时支持使用思维链和 工具集成推理(TIR) 解决 中英双语 的数学题。Qwen2.5-Math 系列相比上一代 Qwen2.5-Math 在中文和英文的数学解题能力上均实现了显著提升。 图1:在MATH上的效果 图2: 开源数据集评测 此外,使用 TIR 能进一步提升模型效果。 图3:使用TIR工具调用能进一步提升效果 下面是一个使用 TIR 的例子: 图4: 使用TIR 由于使用 TIR 需要调用 Agent,因此如果是直接推理,模型的输出会有问题。 下面的例子中,代码正确的结果应该是((159, 160, 161, 162), 642) ,如果不掉用 Agent,模型依然会
………………………………