注册登录

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

目录

相关文章推荐

新法治报 · 日本九州岛附近海域发生6.2级地震 · 昨天

题材挖掘君 · 外骨骼机器人，最新标的公司梳理（精选名单） · 2 天前

题材挖掘君 · 外骨骼机器人，最新标的公司梳理（精选名单） · 2 天前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

用极小模型复现R1思维链的失败感悟

机器学习算法与自然语言处理 · 公众号 · · 2025-03-08 00:21

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 知乎作者 | 林正前言投完ICML之后火急火燎的入门RL，花了一些时间把RLHF学了。后来在知乎上看到了很多优秀的开源R1复现项目，于是手痒痒啃了下比较火的两个开源项目准备自己实践一下，一个是Huggingface的Open-R1，一个是Logic-RL。由于Logic-RL基于Verl，模型推理和训练过程都是shard到不同显卡上的，Huggingface的GRPOTrainer是单独用一张显卡做vllm推理，所以我在浅尝Open-R1做数学题的训练之后转移到了Logic-RL上面。因为是民科，手上只有四张降了功率的3090，我就拿0.5B的千问做的实验，中间遇到了不少问题。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新法治报 · 日本九州岛附近海域发生6.2级地震

昨天

题材挖掘君 · 外骨骼机器人，最新标的公司梳理（精选名单）

2 天前

题材挖掘君 · 外骨骼机器人，最新标的公司梳理（精选名单）

2 天前

绿色青浦 · 叮咚~打卡青浦夏日特调饮品清单，一口唤醒你的夏日多巴胺！

9 月前

第一财经资讯 · 银行股上演“万绿丛中一点红”，创新高后上车还来得及吗

8 月前

华龙网 · 乖乖些，今天来学哈儿重庆话撒😻

1 月前

河北新闻广播 · 寒潮蓝色预警！最低-22℃！局地有大雪

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号