专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

克服微调垂类领域模型导致的通用领域知识遗忘的好方法——llama_pro

AI工程化  · 公众号  ·  · 2024-06-24 22:38

文章预览

写在前面 目前不少开源模型在通用领域具有不错的效果,但由于缺乏领域数据,往往在一些垂直领域中表现不理想,这时就需要增量预训练和微调等方法来提高模型的领域能力。 但在领域数据增量预训练或微调时,很容易出现灾难性遗忘现象,也就是学会了垂直领域知识,但忘记了通用领域知识,之前介绍过增量预训练以及领域大模型训练技巧,详见: 如何更好地继续预训练-Continue PreTraining 领域大模型-训练Trick & 落地思考 今天给大家带来一篇增量预训练方法-Llama-Pro,对LLMs进行Transformer块扩展后,增量预训练过程中仅对新增块进行训练,有效地进行模型知识注入,并且极大程度地避免灾难性遗忘。 LLaMA Pro: Progressive LLaMA with Block Expansion LLaMA Pro: Progressive LLaMA with Block Expansion Paper: https://arxiv.org/abs/2401.02415 Github: https://github.com/TencentARC/LLaMA-Pro ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览