文章预览
作者:林泽毅 编辑:AI生成未来 链接: https://zhuanlan.zhihu.com/p/702491999 Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。 以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习 LLM微调 的入门任务。 在本文中,我们会使用 Qwen2-1.5b-Instruct(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary) 模型在 复旦中文新闻 (https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/summary)数据集上做指令微调训练,同时使用SwanLab监控训练过程、评估模型效果。 显存要求不高,10GB左右就可以跑。 代码: 完整代码直接看本文第5节 或 Github(https://github.com/Zeyi-Lin/LLM-Finetune),Jupyter Notebook(https://github.com/Zeyi-Lin/LLM-Finetune/blob/main/train_qwen2.ipynb) 实验日志过程: Qwen2-1.5B-Fintune - SwanLab(https://swanlab.cn/@Z
………………………………