Maxime Labonne与Huggingface和Ben B-20250309085235

黄建同学 · 微博 · AI · 2025-03-09 08:52

文章预览

2025-03-09 08:52 本条微博链接 Maxime Labonne与Huggingface和Ben Burtenshaw合作，教大家如何使用GRPO微调大型语言模型(LLMs)。在这份notebook中，使用过滤后的smoltldr数据集对一个小型的SmolLM-135M模型进行了微调。凭借奖励函数，鼓励模型输出大约50个字符的简短生成内容（"TL;DR"）。有趣的是，这个135M的模型仅使用2000个样本就能学会这种行为！最终结果的质量各不相同，但调整超参数并获得这些小型模型如何与GRPO配合的直觉，是一个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 不会考察候选人的「AI能力」？你可能招不到未来的人才！你有没有发-20250309120607

15 小时前

爱可可-爱生活 · 【[40星]MultiagentBench/MARBLE：评估L-20250308221815

昨天

爱可可-爱生活 · [CL]《TRACT: Regression-Aware Fin-20250308053155

昨天

机器之心 · 全球首发：QwQ-32B本地一键部署、3090单卡可跑，共享算力成关键

2 天前

爱可可-爱生活 · SoftMatcha 创新性地结合词嵌入和倒排索引，提出了一种快-20250307054859

2 天前

环保水处理 · 诗词丨春有百花秋有月，夏有凉风冬有雪

2 月前

青岛早报 · 最新预报，青岛直冲18℃！周末更刺激……

1 周前