|
图解OpenRLHF中基于Ray的分布式训练流程 大猿搬砖简记 · 公众号 · · 1 周前 · 访问文章快照 |
|
人人都能看懂的RL-PPO理论知识 大猿搬砖简记 · 公众号 · · 1 月前 · 访问文章快照 |
|
图解大模型训练系列:序列并行4,Megatron Context Parallel 大猿搬砖简记 · 公众号 · · 1 月前 · 访问文章快照 |
|
图解大模型训练系列:序列并行3,Ring Attention 大猿搬砖简记 · 公众号 · · 1 月前 · 访问文章快照 |
|
图解大模型训练系列:序列并行2,DeepSpeed Ulysses 大猿搬砖简记 · 公众号 · · 1 月前 · 访问文章快照 |
|
图解大模型训练系列:序列并行1,Megatron SP 大猿搬砖简记 · 公众号 · · 1 月前 · 访问文章快照 |
|
如何用一个统一的视角,分析RLHF下的各种算法? 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
避开复数推导,我们还可以怎么理解RoPE(重制版) 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
OpenAI o1技术初探3:如何让模型拥有自我纠错的能力 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读) 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
新增o1训练框架图例 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
OpenAI o1 技术初探1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力 大猿搬砖简记 · 公众号 · · 2 月前 · 访问文章快照 |
|
避开复数推导,我们还可以怎么理解RoPE? 大猿搬砖简记 · 公众号 · · 3 月前 · 访问文章快照 |
|
分享一些高效阅读论文和代码的方法 大猿搬砖简记 · 公众号 · 科技自媒体 学习 · 3 月前 · 访问文章快照 |
|
人人都能看懂的DPO数学原理 大猿搬砖简记 · 公众号 · · 3 月前 · 访问文章快照 |
|
图解大模型计算加速系列:分离式推理架构2,模糊分离与合并边界的chunked-prefills 大猿搬砖简记 · 公众号 · · 5 月前 · 访问文章快照 |
|
vllm代码更新太频繁,我该怎么办? 大猿搬砖简记 · 公众号 · · 5 月前 · 访问文章快照 |
|
图解大模型计算加速系列:vLLM源码解析3,Prefix Caching 大猿搬砖简记 · 公众号 · · 5 月前 · 访问文章快照 |
|
图解大模型计算加速系列:分离式推理架构1,从DistServe谈起 大猿搬砖简记 · 公众号 · · 5 月前 · 访问文章快照 |