专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

10G显存,使用Unsloth微调Qwen2并使用Ollama推理

魔搭ModelScope社区  · 公众号  ·  · 2024-08-26 23:06
    

主要观点总结

本文主要介绍了使用Unsloth框架微调Qwen2基础模型,创建自定义聊天机器人,并在Ollama上运行的过程。关键步骤包括环境安装、模型选择、微调参数设置、数据集处理、模型训练、推理运行以及模型保存和导出。

关键观点总结

关键观点1: 使用Unsloth框架进行模型微调

Unsloth是一个预训练模型微调框架,专注于提高训练速度和减少显存占用。针对Qwen2等LLM的微调,可使用4位量化进行微调,以减少内存使用量并调整微调参数以提高微调的准确性。

关键观点2: 数据集处理

使用ShareGPT风格的数据集进行微调,通过get_chat_template函数获取正确的聊天模板,并进行数据集映射。

关键观点3: 模型训练

使用SFTTrainer进行模型训练,设置适当的训练参数,如批处理大小、梯度累积步骤、学习率等。

关键观点4: 模型推理和运行

完成训练后,使用FastLanguageModel进行推理,支持流式输出。使用TextStreamer进行文本流式处理。

关键观点5: 模型保存和导出

微调后的模型保存为LoRA格式,并导出为GGUF格式,以便在Ollama上运行。生成Modelfile文件,包含模型的路径和聊天模板。

关键观点6: 在Ollama上创建和推理模型

使用ollama命令创建自定义模型,并运行gguf模型进行多轮对话测试。


文章预览

本文主要使用Unsloth基于Qwen2基础模型微调对话机器人以及在Ollama上运行。 在魔搭社区免费算力上,仅需要10G显存,使用Unsloth来微调Qwen2创建自定义聊天机器人,并创建GGUF文件,可以在PC端本地运行。 参考链接:https://docs.unsloth.ai/ 1 Unsloth是什么? Unsloth是一个预训练模型微调框架,专注于提高训练速度和减少显存占用。针对现在主流模型,如Llama-3,Qwen2,Mistral等LLM的微调速度可提升2倍,内存使用量减少70%,而且准确度并不会降低! 所有内核均用OpenAI 的 Triton语言编写 准确度损失为 0% 通过bitsandbytes支持 4 位和 16 位 QLoRA / LoRA 微调。 开源 训练速度提高 5 倍 拥有一张很酷的贴纸!所有基于Unsloth的模型都可以用这张贴纸 在本教程中,使用魔搭社区的免费GPU,使用 10G显存 微调Qwen2-7B 2 Ollama是什么? Ollama 是一款极其简单的基于命令行的工具,用于运行 L ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览