专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

评价deepseek v3:又一个相信自己比英伟达懂GPU计算并做到了的团队

AINLP  · 公众号  ·  · 2025-01-03 18:21
    

文章预览

我觉得 deepseek v3 主要做成了 2 件事: 继 flash attention 之后,又一个相信自己比英伟达懂 GPU 计算,并且做到了的团队; 找到了 pretrain 的一个 10x 变化。 这里前者是指 fp8 训练,后者是指 pretrain batch size 的扩展。 知乎 :朱小霖 地址 :https://www.zhihu.com/question/7837132971/answer/67345859891 编辑 :深度学习自然语言处理  fp8 训练应该算是各个工程团队长久的痛。大家都明白 fp8 的计算峰值是 bf16 的一倍,但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain,fp8 这里一直都没有一个相对公开的 recipe,更多地是 “训练极其不稳定” 的流言。而英伟达官方的 transformer engine 似乎也没有解决这个问题,并且如同英伟达的其他开源软件库一样,变得愈发笨重和冗杂。 deepseek 团队有这个勇气和能力直接抛开英伟达提出的 fp8 实践,给出了例如正反向都使用 e4m3,attention ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览