专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

我发布了使用 GRPO 训练基础模型的首次尝试。本着与 R0 类-20250203080718

斌叔OKmath  · 微博  ·  · 2025-02-03 08:07
    

文章预览

2025-02-03 08:07 本条微博链接 我发布了使用 GRPO 训练基础模型的首次尝试。本着与 R0 类似的精神,这个 colab 笔记本将 Pleias-350m 转变为 RL 诗人,无需任何训练后数据,仅使用奖励函数。 网页链接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览