专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

超大模型加载转换Trick

GiantPandaCV  · 公众号  · 3D  · 2024-07-14 23:54
    

文章预览

原文:https://zhuanlan.zhihu.com/p/698950172 在深度学习领域,大模型的训练和推理通常需要消耗大量的计算和内存。如何高效地加载和使用大模型是一个相当关键的问题。在这篇博客中,我将分享一些关于更快加载大模型和减少内存的技巧. 问题分析 假设现在我们有一个236B 超大模型的原始权重的  checkpoint.pth  文件, 比如 DeepSeek Chat V2, 以BF16 格式存储, 一个标准的加载流程如下 import torch state_dict = torch . load(checkpoint_file) my_model = BigModelClass( ... ) my_model . load_state_dict(state_dict) 在这段代码的中,  my_model = BigModelClass(...)  会初始化一个模型,  torch.load(checkpoint_file) 函数会将模型权重从磁盘加载到内存中。然后, my_model.load_state_dict(state_dict) 函数会将权重从内存加载到模型的参数中。这两个步骤都可能会消耗大量的时间和内存。理想情况下, 一个236B BF16格式的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览