专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

Maxime Labonne与Huggingface和Ben B-20250309085235

黄建同学  · 微博  · AI  · 2025-03-09 08:52
    

文章预览

2025-03-09 08:52 本条微博链接 Maxime Labonne与Huggingface和Ben Burtenshaw合作,教大家如何使用GRPO微调大型语言模型(LLMs)。 在这份notebook中,使用过滤后的smoltldr数据集对一个小型的SmolLM-135M模型进行了微调。凭借奖励函数,鼓励模型输出大约50个字符的简短生成内容("TL;DR")。有趣的是,这个135M的模型仅使用2000个样本就能学会这种行为! 最终结果的质量各不相同,但调整超参数并获得这些小型模型如何与GRPO配合的直觉,是一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览