阿里发布 Qwen2-Math：数学推理全球第一，超越 GPT-4o 和 Claude-3.5

AI寒武纪 · 公众号 · · 2024-08-09 06:02

文章预览

太酷啦！⚡️⚡️阿里发布了 Qwen2-Math（1.5B/7B/72B）系列，Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，数学推理能力全球第一！！超越 GPT-4o 和 Claude-3.5-Sonnet🔥🔥 最重要的是， Qwen2-Math 是开源的，支持复杂的多步逻辑推理和解决高级数学问题，这是阿里的 Q* 嘛？🍓🤯🤯 以下我们主要介绍最强模型 Qwen2-Math-72B-Instruct（目前仅支持英文） Qwen2-Math-72B-Instruct 经过在一系列数学基准评测上评估数学专用模型 Qwen2-Math。在 Math 上的评测结果表明，最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型，包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测，如 GSM8K 和 MATH 之外，还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力，例如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

经济日报 · 你有自己的“晓华”吗？

8 小时前

经济日报 · 你有自己的“晓华”吗？

8 小时前

格隆 · 两周暴涨277%！这个赛道杀回来了

3 天前

格隆 · 两周暴涨277%！这个赛道杀回来了

3 天前

娱乐独角兽 · B站上市6年首次盈利，游戏“上桌”再次“单骑救主”？

4 天前

娱乐独角兽 · B站上市6年首次盈利，游戏“上桌”再次“单骑救主”？

4 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

5 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

5 天前

派代 · B站首次实现单季盈利，内容生态是“关键先生”

6 天前

派代 · B站首次实现单季盈利，内容生态是“关键先生”

6 天前

直通硅谷 · 面试变革 | 继谷歌、亚马逊，Meta team match改革！

2 月前

科技富能量 · 华为Mate 60系列降价冲量！阿斯麦三季度业绩“爆雷”！

1 月前