专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaCV  ·  图解Megatron ... ·  3 天前  
今天看啥  ›  专栏  ›  GiantPandaCV

使用torchtune把LLaMa-3.1 8B蒸馏为1B

GiantPandaCV  · 公众号  · 3D  · 2025-01-06 18:35
    

文章预览

博客来源:https://pytorch.org/blog/llama-into-torchtune/ by Linda Wang, Evan Smothers, Kartikay Khandelwal 这里做了翻译可以帮助读者了解如何对LLM做知识蒸馏。总结来说,这篇博客介绍了如何使用torchtune将Llama 3.1 8B模型蒸馏为1B模型,通过知识蒸馏技术提高小模型在指令跟随任务上的性能。文章详细解释了知识蒸馏的工作原理,并展示了在torchtune中的实现过程,包括模型下载、教师模型微调和蒸馏步骤。此外,博客上还展示了4个消融实验,探讨了不同配置和超参数对结果的影响,最后谈了下可以继续做的事情。 使用torchtune把LLaMa-3.1 8B蒸馏为1B 在这篇博客中,我们展示了一个使用torchtune的知识蒸馏配方将Llama 3.1 8B模型蒸馏为Llama 3.2 1B的案例研究。我们演示了如何在训练后使用知识蒸馏(KD)来提高指令跟随任务的性能,并展示了用户如何利用这个配方。 什么是知识蒸馏? 知 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览