注册登录

专栏名称: 大语言模型和具身智体及自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

哲学园 · 不是我乌鸦嘴，xhs热不了几天必被GZ！ · 昨天

哲学王 · 赵林：费希特的“绝对自我” · 2 天前

教师E家 · 看到一位网友对老师的灵魂八问，其中第二问是： ... · 3 天前

教师E家 · 看到一位网友对老师的灵魂八问，其中第二问是： ... · 3 天前

今天看啥 › 专栏 › 大语言模型和具身智体及自动驾驶

Qwen2.5-Math 技术报告：通过自我改进实现数学专家模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-22 05:05

文章预览

24年9月来自阿里的论文“Qwen2.5-Math Technical Report:Toward Mathematical Expert Model Via Self- Improvement ”。一系列数学专用的大语言模型：Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于将自我完善的理念贯穿于从预训练、后训练到推理的整个流程：（1）在预训练阶段，利用 Qwen2-Math-Instruct 生成大规模高质量的数学数据。（2）在后训练阶段，从 Qwen2-Math-Instruct 进行大量采样，开发奖励模型（RM）。然后将这个 RM 应用于监督微调（SFT）中的数据迭代演变。有了更强大的 SFT 模型，就可以迭代地训练和更新 RM，进而指导下一轮 SFT 数据迭代。在最终的 SFT 模型上，采用终极 RM 进行强化学习，从而诞生了 Qwen2.5-Math-Instruct。（3）此外，在推理阶段，使用 RM 指导采样，优化模型性能。Qwen2.5-Math-Instruct 支持中英文，并具备高级数学推理能力，包括思 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哲学园 · 不是我乌鸦嘴，xhs热不了几天必被GZ！

昨天

哲学王 · 赵林：费希特的“绝对自我”

2 天前

教师E家 · 看到一位网友对老师的灵魂八问，其中第二问是：老师寒暑假工资卡有没有进账?很多网友在下面回复，其中有个网友的回复让我印象特别深刻：寒暑假凭什么给教师发工资？建议中小学老师只拿9个月工资，寒暑假自谋生路。只能说这样的发问不是蠢就是坏！老师的工作如果仅仅只是给学生上课，那老师宁愿不要寒暑假的工资。你知道教师们在假期也会参加培训学习吗？你知道教师们在假期也会备课吗？你知道每年假期老师们要挨家挨户走访宣传防溺水、安全教育工作吗。你什么都不知道，那就请闭嘴，不要外行人对内行人指指点点！

3 天前

教师E家 · 看到一位网友对老师的灵魂八问，其中第二问是：老师寒暑假工资卡有没有进账?很多网友在下面回复，其中有个网友的回复让我印象特别深刻：寒暑假凭什么给教师发工资？建议中小学老师只拿9个月工资，寒暑假自谋生路。只能说这样的发问不是蠢就是坏！老师的工作如果仅仅只是给学生上课，那老师宁愿不要寒暑假的工资。你知道教师们在假期也会参加培训学习吗？你知道教师们在假期也会备课吗？你知道每年假期老师们要挨家挨户走访宣传防溺水、安全教育工作吗。你什么都不知道，那就请闭嘴，不要外行人对内行人指指点点！

3 天前

湖南日报 · 百米冲刺加速，华容团洲垸决口封堵还剩58米

6 月前

环保人 · 注塑废气颗粒物源强依据有不？目前大都引用文献？广泛引用的文献中的较小？怎么写比较好？

6 月前

纳米材料催化 · Nature 正刊又+1，审稿人直夸计算没问题！方法曝光后，网友炸了：颠覆认知！

2 月前

TfR1lyxxx快乐鼠鼠 · 回复@飞晨曦: 白蛋白确实是一个很好的爆发点，但是国内其实不只是-20241110164538

2 月前

云技术 · 690万元，科创信息击败「用友、金蝶」中标江粮数智化项目

4 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号