今天看啥  ›  专栏  ›  梓豪谈芯

谈谈国产算力支持大模型和MoE/RL算法协同演进方向

梓豪谈芯  · 公众号  ·  · 2025-02-07 20:50
    

文章预览

TL;DR DeepSeek-v3/R1这一波最大的受益者或许是前些年建设了大量国产算力的一些机构, 终于把这些卡在推理上用起来了. 然后另一方面做一个比较极限的推演, 如果接下来国内公司无法获得更好的卡, 例如连H20都被禁的情况下, 如何在国产算力上完成超过1T参数的模型训练并支持低成本的推理? 同时兼顾一些RL后训练任务? 昨天和同事以及一些做芯片的同行聊了一下, 大概想到了几个路径, 就此分享一下. 前提假设是如果我们只有算力在100TFOPS左右的卡, 没有太多的高速互联能力, 同时显存带宽受限时该怎么办? MoE的设计 MTP和Temporal-Difference RL RL PostTrain任务和推理集群混布构建持续学习 1. MOE的设计 模型 专家数 (激活) 共享专家 expert_grp grp_limit dim MOE inter_dim 16B 64(6) 2 - - 2048 1408 236B 160(6) 2 8 3 5120 1536 671B 256(8) 1 8 4 7168 2048 当前DeepSeek-v3几个模型MoE相关的参数如上表所 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览