看不懂代码如何微调DeepSeek-R1蒸馏的Llama-8B模型？

王路在隐身 · 公众号 · 热门自媒体 · 2025-02-11 20:39

主要观点总结

作者两年前微调了开源的大语言模型，并在阿毗达磨问题上进行了测试。他发现模型在阿毗达磨上的表现相对较好，但网上的数据质量极差。作者通过刘琨的帮助，使用unsloth库进行了模型微调，并使用了txt格式的训练数据。他详细解释了安装依赖、配置PEFT模型、数据处理、训练配置和推理的代码。最后，他给出了对代码和性能的详细解释和建议。

关键观点总结

关键观点1: 微调大语言模型

作者微调了开源的大语言模型，并测试了它在阿毗达磨问题上的表现。

关键观点2: 数据质量差

作者发现网上的阿毗达磨数据质量极差，只有1%的数据是正确的。

关键观点3: 使用unsloth库进行微调

作者使用unsloth库进行模型微调，提高了训练效率。

关键观点4: 数据处理和训练配置

作者详细解释了数据处理和训练配置的代码，包括安装依赖、配置PEFT模型、数据处理和训练参数。

关键观点5: 推理和性能优化

作者介绍了用于模型推理的代码，并给出了性能优化和错误处理的建议。

文章预览

（这篇帖子主要是自己留个备份。想听我随便聊只看前面就行。想复制代码就直接拉到后面。）两年前，我微调过当时开源的一些大语言模型。用阿毗达磨数据。因为，大语言模型在阿毗达磨问题上的表现总是很差。后来，每出一种更强劲的模型，我总会从写作和阿毗达磨两个方面去测试它。在文学写作上，最先达到我认为勉强可用的模型是 Claude 3.5 Sonnet （ 2024 年 10 月版），我是从去年 11 月开始用 sonnet 写作的。 deepseek R1 出现之后，基本替换成 R1 。 R1 在阿毗达磨上的表现比现在一般人能用的模型都要相对好一点。注意，只是相对。我现在一般会用三个比较简单的问题问它们： 1 、阿毗达磨里的 98 随眠具体是哪些？ 2 、色界见灭所断随眠有哪些？ 3 、色界见灭所断随眠中有哪些是无漏缘惑？ —— 包括 o1 和 o3-mini 在内的模型，都还从来没回答对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博