专栏名称: 纳指弹幕组

多聊市场的想法，少聊自己的想法.

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

产业视角: 推理对高带宽内存的依赖

纳指弹幕组 · 公众号 · 互联网安全科技自媒体 · 2025-03-02 22:39

主要观点总结

文章主要讨论了产业对于推理过程中高带宽内存的依赖，相对于推理所需的算力，内存的重要性被更多关注。文章以DeepSeek-R1模型为例，详细说明了其对高带宽内存的需求和在推理过程中内存带宽的重要性。

关键观点总结

关键观点1: 产业更关注推理对高带宽内存的依赖

DeepSeek-R1模型运行需要大量内存，体现产业对高带宽内存的依赖。

关键观点2: DeepSeek-R1模型对内存的需求细节

整个模型运行需要671 GB的HBM，且即使模型中只有约370亿个参数处于活跃状态，其他部分（包括门控函数及权重）也需常驻内存，并保留额外缓存为生成“思考链”所用。

关键观点3: 内存带宽在推理过程中的重要性

芯片内的内存带宽在推理过程中至关重要，因为所有数据的读写都集中在单个芯片上进行。

关键观点4: 预训练阶段与测试时推理阶段的差异

预训练更侧重于大量数据和模型参数在多个芯片之间的传输，而测试时推理主要依赖单个芯片上高效的内存带宽，以支持“思考链”的生成和处理。

关键观点5: 提高推理性能的方法

为了提高推理性能，可以通过增大单卡的HBM容量或优化内存带宽利用率，如通过混合专家模型或直接在低级语言层面优化内核。

文章预览

一个未被充分认识到的事情是: 相比推理是否需要更多算力, 产业更关注推理对于高带宽内存的依赖. ---------------------------------------------- 产业的看法, 总结下来大体如下： - 以 DeepSeek-R1 为例，整个模型运行需要 671 GB 的 HBM，其中每十亿个参数大致需要 1 GB 的内存。 - 尽管模型中只有约 370 亿个参数处于活跃状态，但整个模型（包括门控函数及权重）都必须常驻内存，且还需要为生成“思考链”保留额外缓存。 - 在推理过程中, 芯片内的内存带宽至关重要，因为所有数据的读写都集中在单个芯片上进行。 - 预训练阶段vs.测试时推理阶段: 预训练更侧重于大量数据和模型参数在多个芯片之间的传输，因此更加依赖数据中心内部或跨数据中心的全互连通信带宽; 测试时推理主要依赖单个芯片上高效的内存带宽，从而支持高效的“思考链”生成和处理。 - 所 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

静安国防动员 · 前置服务明标准预警先行筑防线

7 小时前

静安国防动员 · 前置服务明标准预警先行筑防线

7 小时前

福州新闻网 · 紧急提醒：千万不要下载，假的！

昨天

福州新闻网 · 紧急提醒：千万不要下载，假的！

昨天

sven_shi · 这也是最近在做的一个专题，蛮有意思的。是你没把你儿子教好 -20250301213031

2 天前

雨枫杂谈 · 会魔法的英伟达

2 天前

雨枫杂谈 · 会魔法的英伟达

2 天前

阿昆的科研日常 · “自从学了AI，连导师都来找我润色论文”

3 天前

阿昆的科研日常 · “自从学了AI，连导师都来找我润色论文”

3 天前

券商中国 · 两大保险集团又现人事调动，这位70后有最新任职

9 月前

观察者网 · "教授魏新河"，被抓了

8 月前

丁香医考 · 补钾、补钠、补碱简易换算公式（更新版）

7 月前

爱贝睿科学早教 · 孩子厌学摆烂？试试这些桌游，让孩子在松弛中生长学习力~

3 月前

闲来一坐s话投资 · 闲来札记：牛市是否还在、价值投资无“痛点”、茅台的过去和未来

2 月前