文章预览
产品接入大模型驱动的 AI 客服机器人也有一段时间了,也积累了不少真实场景下的客户问答数据,因为给每条回答设置了点 👍 点 👎 按钮,最近将其中点 👍 的问答对导出来(妥妥的人工标准高质量数据),试着基于 Qwen2-7B 微调一个小模型跑下效果,如果能够应付 85% 以上回答,准备在这个场景里撤下当前的智谱模型了。 Qwen2-7B 在中文场景下的回答效果我在 siliconflow 上体验下来,效果很不错,所以选它做基础模型。 Qwen2-7B 微调步骤 安装 LLaMA Factory 依赖 我是在谷歌 Colab 里面微调的,毕竟免费用户可以白嫖 15G 显存的 T4 GPU,这里特别感谢 LLaMA Factory [1] 项目,一个包免去多余的依赖安装和环境配置。 %cd /content/ %rm -rf LLaMA-Factory !git clone https://github.com/hiyouga/LLaMA-Factory.git %cd LLaMA-Factory %ls !pip install -e .[torch,bitsandbytes] 更新预设数据集 这个 identity.json
………………………………