今天看啥  ›  专栏  ›  王路在隐身

看不懂代码如何微调DeepSeek-R1蒸馏的Llama-8B模型?

王路在隐身  · 公众号  · 热门自媒体  · 2025-02-11 20:39
    

主要观点总结

作者两年前微调了开源的大语言模型,并在阿毗达磨问题上进行了测试。他发现模型在阿毗达磨上的表现相对较好,但网上的数据质量极差。作者通过刘琨的帮助,使用unsloth库进行了模型微调,并使用了txt格式的训练数据。他详细解释了安装依赖、配置PEFT模型、数据处理、训练配置和推理的代码。最后,他给出了对代码和性能的详细解释和建议。

关键观点总结

关键观点1: 微调大语言模型

作者微调了开源的大语言模型,并测试了它在阿毗达磨问题上的表现。

关键观点2: 数据质量差

作者发现网上的阿毗达磨数据质量极差,只有1%的数据是正确的。

关键观点3: 使用unsloth库进行微调

作者使用unsloth库进行模型微调,提高了训练效率。

关键观点4: 数据处理和训练配置

作者详细解释了数据处理和训练配置的代码,包括安装依赖、配置PEFT模型、数据处理和训练参数。

关键观点5: 推理和性能优化

作者介绍了用于模型推理的代码,并给出了性能优化和错误处理的建议。


文章预览

(这篇帖子主要是自己留个备份。想听我随便聊只看前面就行。想复制代码就直接拉到后面。) 两年前,我微调过当时开源的一些大语言模型。用阿毗达磨数据。因为,大语言模型在阿毗达磨问题上的表现总是很差。后来,每出一种更强劲的模型,我总会从写作和阿毗达磨两个方面去测试它。在文学写作上,最先达到我认为勉强可用的模型是 Claude 3.5 Sonnet ( 2024 年 10 月版),我是从去年 11 月开始用 sonnet 写作的。 deepseek R1 出现之后,基本替换成 R1 。 R1 在阿毗达磨上的表现比现在一般人能用的模型都要相对好一点。注意,只是相对。我现在一般会用三个比较简单的问题问它们: 1 、阿毗达磨里的 98 随眠具体是哪些? 2 、色界见灭所断随眠有哪些? 3 、色界见灭所断随眠中有哪些是无漏缘惑? —— 包括 o1 和 o3-mini 在内的模型,都还从来没回答对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览