大模型二次开发基本思路

吃果冻不吐果冻皮 · 公众号 · 科技自媒体 · 2024-09-12 08:45

主要观点总结

本文主要介绍了大模型技术交流群的开发方法分类，包括领域知识注入、知识召回、基础偏好对齐、高阶偏好对齐等。同时，文章还介绍了各个开发阶段的详细介绍，包括后期预训练、微调、监督微调、强化学习人类反馈等。此外，文章还探讨了模型对齐、问题解决策略及部署、技术创新与发展等方面的内容。最后，文章详细分析了增量预训练和其他两种自适应预训练的方法：Prompt-based方法、representation-based方法和model mixture-based方法，并总结了各自的优缺点。

关键观点总结

关键观点1: 大模型技术交流群的开发方法分类

包括领域知识注入、知识召回、基础偏好对齐、高阶偏好对齐等。这些方法各有特点，适用于不同的开发阶段和需求。

关键观点2: 模型开发各阶段介绍

包括后期预训练、微调、监督微调等阶段，每个阶段都有详细的实施方式和目标。这些阶段的实施对于模型的最终性能至关重要。

关键观点3: 模型对齐与强化学习人类反馈

模型对齐是优化模型以符合实际应用需求的过程，强化学习人类反馈则通过人类提供的反馈来训练模型，使其更符合人类的偏好和需求。这两种方法在模型的优化和提高性能方面都起着重要作用。

关键观点4: 增量预训练与其他自适应预训练方法的比较

增量预训练是领域自适应预训练的一种，与其他方法如Prompt-based和representation-based方法相比，各有优缺点。文章详细分析了这些方法的工作原理和适用场景，为读者提供了更全面的视角。

文章预览

【点击】加入大模型技术交流群开发方法分类 1、领域知识注入：Continue PreTraining(增量预训练),一般垂直大模型是基于通用大模型进行二次的开发，需要用领域内的语料进行继续预训练。 2、知识召回（激发）：SFT( Supervised Finetuning,有监督微调), 通过SFT可以激发大模型理解领域内的各种问题并进行回答的能力。 3、基础偏好对齐：奖励模型（RM）、强化学习（RL），可以让大模型的回答对齐人们的偏好，比如行文的风格。 4、高阶偏好对齐：RLHF(人类反馈强化学习训练)、DPO(直接偏好优化)。开发阶段分类模型分成3个阶段: (1)、第一阶段:(Continue PreTraining)增量预训练，在海量领域文档数据上二次预训练GPT模型，以注入领域知识。 (2)、第二阶段: SFT(Supervised Fine-tuning)有监督微调，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图。 (3 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博