专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

推理大模型的后训练增强技术-预训练篇

AINLP · 公众号 · · 2025-03-08 22:19

文章预览

大模型训练技术概述 LLM训练的三个阶段训练大型语言模型不是一个单一的过程，相反，它是一个多层的训练过程组合，每个过程都有其独特的作用，并对模型的性能做出贡献。阶段1：自我监督学习（Self-Supervised Learning）：自我监督学习是一种特殊形式的无监督学习，主要通过数据本身的内在结构来生成标签，而不需要人工标注的标签。比如LLM中的预训练。阶段2：监督学习（Supervised Learning）：监督学习是机器学习中最常见的一种方法，其中模型通过带有标签的训练数据进行学习，目的是从输入数据和其对应的标签中找到映射关系。比如LLM中的指令微调。阶段3：强化学习（Reinforcement Learning）：强化学习是一种基于奖励信号的学习方式，模型通过与环境的互动来学习。它不像监督学习那样依赖大量标注数据，而是通过探索（尝试不同的动作）和利 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博