|
经验分享!从0开始做一篇Benchmark 青稞AI · 公众号 · · 3 天前 · 访问文章快照 |
|
从论文中积累复现 R1 的 insight 青稞AI · 公众号 · · 3 天前 · 访问文章快照 |
|
思考 RLHF 的本质以及主流算法思路 青稞AI · 公众号 · · 6 天前 · 访问文章快照 |
|
David Silver、Richard S. Sutton:欢迎进入经验时代 青稞AI · 公众号 · · 6 天前 · 访问文章快照 |
|
两万字长文!走向推理时代:推理大型语言模型的长思维链 青稞AI · 公众号 · · 1 周前 · 访问文章快照 |
|
Agentic 是个谎言,本质还是经典RL 青稞AI · 公众号 · · 1 周前 · 访问文章快照 |
|
字节Seed:探索RLHF中的数据规模扩展趋势与影响 青稞AI · 公众号 · · 1 周前 · 访问文章快照 |
|
直播预告!从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化 青稞AI · 公众号 · · 1 周前 · 访问文章快照 |