专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

AINLP · 公众号 · · 2025-01-03 18:21

文章预览

我觉得 deepseek v3 主要做成了 2 件事：继 flash attention 之后，又一个相信自己比英伟达懂 GPU 计算，并且做到了的团队；找到了 pretrain 的一个 10x 变化。这里前者是指 fp8 训练，后者是指 pretrain batch size 的扩展。知乎：朱小霖地址：https://www.zhihu.com/question/7837132971/answer/67345859891 编辑：深度学习自然语言处理 fp8 训练应该算是各个工程团队长久的痛。大家都明白 fp8 的计算峰值是 bf16 的一倍，但是除了 23 年 Yi 团队对外宣传成功做了 fp8 的 pretrain，fp8 这里一直都没有一个相对公开的 recipe，更多地是 “训练极其不稳定” 的流言。而英伟达官方的 transformer engine 似乎也没有解决这个问题，并且如同英伟达的其他开源软件库一样，变得愈发笨重和冗杂。 deepseek 团队有这个勇气和能力直接抛开英伟达提出的 fp8 实践，给出了例如正反向都使用 e4m3，attention ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博