专栏名称: zartbot
随便记录点有趣的东西
目录
今天看啥  ›  专栏  ›  zartbot

谈谈DeepSeek-v3提到的基础设施演进

zartbot  · 公众号  ·  · 2024-12-29 23:52
    

文章预览

看DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一, DeepSeek团队中应该有不少OI竞赛获奖选手, 其实对于我们这些搞过OI的人, 对于计算上的优化策略基本上都是手到擒来,很多时候把处理器的体系结构也研究的很深, 所以同时做算法和Infra是非常自然的一件事情, 而如今很多算法岗的新人大多数人的代码能力是非常有限的.... 当然渣B稍微再得瑟一下, 比DeepSeek他们还更懂更底层的芯片以及它们的互联, Maybe再多懂一点数学... 昨天还跟一朋友讲了一个冷玩笑, FP8训练这些Quantization不就是Quant变渣("za"tion)么,^o^. 1. 算力不再应当只是约束,而是一个可以联合优化的变量 其实很多年前, 阿里妈妈团队就在推荐系统引入深度学习时做过大量的算法和算力Infra协 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览