专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  包包算法笔记

大模型二次开发技术选型思路

包包算法笔记  · 公众号  ·  · 2024-08-05 18:30

文章预览

原文:https://zhuanlan.zhihu.com/p/708059967 开发方法分类 1、领域知识注入:Continue PreTraining(增量预训练): 一般垂直大模型是基于通用大模型进行二次的开发,需要用领域内的语料进行继续预训练。 2、知识召回(激发):SFT( Supervised Finetuning,有监督微调): 通过SFT可以激发大模型理解领域内的各种问题并进行回答的能力。 3、基础偏好对齐:奖励模型(RM)、强化学习(RL),可以让大模型的回答对齐人们的偏好,比如行文的风格。 4、高阶偏好对齐:RLHF(人类反馈强化学习训练)、DPO(直接偏好优化)。 开发阶段分类 模型分成3个阶段: (1)、第一阶段:(Continue PreTraining)增量预训练,在海量领域文档数据上二次预训练GPT模型,以注入领域知识。 (2)、第二阶段: SFT(Supervised Fine-tuning)有监督微调,构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览