注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

秋叶PPT · 下班后花10分钟学会PS，工作到底有多爽？ · 11 小时前

花果科技 · iPhone 16e 发布，这配置太离谱了！ · 昨天

花果科技 · iPhone 16e 发布，这配置太离谱了！ · 昨天

旁门左道PPT · 很严重了，劝大家开始极限存钱吧... · 3 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

超大模型加载转换Trick

吃果冻不吐果冻皮 · 公众号 · · 2024-06-01 12:56

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/698950172 在深度学习领域，大模型的训练和推理通常需要消耗大量的计算和内存。如何高效地加载和使用大模型是一个相当关键的问题。在这篇博客中，我将分享一些关于更快加载大模型和减少内存的技巧. 问题分析假设现在我们有一个236B 超大模型的原始权重的 checkpoint.pth 文件, 比如 DeepSeek Chat V2, 以BF16 格式存储, 一个标准的加载流程如下 import torch state_dict = torch . load(checkpoint_file) my_model = BigModelClass( ... ) my_model . load_state_dict(state_dict) 在这段代码的中, my_model = BigModelClass(...) 会初始化一个模型, torch.load(checkpoint_file) 函数会将模型权重从磁盘加载到内存中。然后， my_model.load_state_dict(state_dict) 函数会将权重从内存加载到模型的参数中。这两个步骤都可能会消耗大量的时间和内存 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

秋叶PPT · 下班后花10分钟学会PS，工作到底有多爽？

11 小时前

花果科技 · iPhone 16e 发布，这配置太离谱了！

昨天

花果科技 · iPhone 16e 发布，这配置太离谱了！

昨天

旁门左道PPT · 很严重了，劝大家开始极限存钱吧...

3 天前

i黑马 · 雷军：找联合创始人要注意这几个问题

7 月前

世纪新能源网 · 65%股权！央企转让光伏企业资产

7 月前

曾奇峰心理工作室 · 李亚：被来访者推开，是咨询工作的常态

7 月前

西坡原创 · 穷得只剩下赢了

6 月前

壹点灵心理 · 不那么明显，但需要心理咨询的5个信号

5 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号