贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

量子位 · 公众号 · AI · 2024-07-05 17:20

文章预览

港中文贾佳亚团队投稿量子位 | 公众号 QbitAI 只要10k数据，就能让大模型的数学成绩增长5.6%。港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。利用这种方法，72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。贾佳亚团队正是学习了这一特点，将斯坦福团队推出的DPO （直接偏好优化）进一步细化，形成了逐步应用的策略 Step-DPO 。该方法让Qwen-72B模型在多个数据集上进步明显，同时也获得了更强的长链条推理任务能力。像教育学生一样训练大模型如何强化推理能力，一直是大语言模型领域的重要问题之一。常见的思维链策略通过在输入提示词部分添加“Let’s think st ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

昨天

爱可可-爱生活 · 【Fast Apply：用于数据生成和微调 Qwen2.5 编码-20241104135843

2 天前

宝玉xp · 其实中文也可以，重点是逻辑清晰，表达清楚，善于将问题分解//@高-20241104090407

2 天前

爱可可-爱生活 · 【Code Sandbox：安全代码运行和评判环境，支持多种编程-20241031140739

6 天前

歸藏的AI工具箱 · 10 月份美国 AI 机器人市场占有率报告

6 天前

歸藏的AI工具箱 · 10 月份美国 AI 机器人市场占有率报告

6 天前

瑞旭集团 · 小瑞看一周：2024年2季度欧盟 EFSA Novel Food 申报批准情况；特殊医学用途蛋白质组件配方食品；

3 月前

一条 · 猫王出了个透明歌词音箱，听歌变得好浪漫，还能连麦K歌！

2 月前