评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

大模型智能 · 公众号 · · 2025-01-09 11:00

文章预览

大模型智能｜分享来源 | 知乎作者 | 朱小霖我觉得 deepseek v3 主要做成了 2 件事：继 flash attention 之后，又一个相信自己比英伟达懂 GPU 计算，并且做到了的团队；找到了 pretrain 的一个 10x 变化。这里前者是指 fp8 训练，后者是指 pretrain batch size 的扩展。 fp8 训练应该算是各个工程团队长久的痛。大家都明白 fp8 的计算峰值是 bf16 的一倍，但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain，fp8 这里一直都没有一个相对公开的 recipe，更多地是 “训练极其不稳定” 的流言。而英伟达官方的 transformer engine 似乎也没有解决这个问题，并且如同英伟达的其他开源软件库一样，变得愈发笨重和冗杂。 deepseek 团队有这个勇气和能力直接抛开英伟达提出的 fp8 实践，给出了例如正反向都使用 e4m3，attention 后的 linear 输入的精度需要提升这样的细节，以及独立 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

发现新西兰 · KFC开始卖炸鱼，网友：“先把鸡肉做好吧”

19 小时前

出彩写作 · 写材料狠人的干货笔记

昨天

牧夫天文 · 牧夫荐书 │《月球的价值》：美国重返月球新难题

7 月前

红杉汇 · 那些让你更好运、更激情、更坚韧的内在力量｜红杉汇内参

5 月前

X-MOL资讯 · 加州大学河滨分校Fudong Liu课题组招收化工及环境工程催化方向博士生

3 月前

小桔灯网 · IVD前沿！媲美CRISPR-Cas，且不依赖PAM的多功能诊断工具

3 月前