专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

推理大模型的后训练增强技术-预训练篇

AINLP  · 公众号  ·  · 2025-03-08 22:19
    

文章预览

大模型训练技术概述 LLM训练的三个阶段 训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。 阶段1:自我监督学习(Self-Supervised Learning):自我监督学习是一种特殊形式的无监督学习,主要通过数据本身的内在结构来生成标签,而不需要人工标注的标签。比如LLM中的预训练。 阶段2:监督学习(Supervised Learning):监督学习是机器学习中最常见的一种方法,其中模型通过带有标签的训练数据进行学习,目的是从输入数据和其对应的标签中找到映射关系。比如LLM中的指令微调。 阶段3:强化学习(Reinforcement Learning):强化学习是一种基于奖励信号的学习方式,模型通过与环境的互动来学习。它不像监督学习那样依赖大量标注数据,而是通过探索(尝试不同的动作)和利 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览