今天看啥  ›  专栏  ›  数据何规

《大模型训练数据白皮书》学习笔记

数据何规  · 公众号  ·  · 2024-06-05 17:36
    

文章预览

2024年5月24日,阿里研究院发布了 《大模型训练数据白皮书》 。 有基础知识的科普,也有一些有趣的观点,摘录分享一下。 这篇没有用AI,手工摘录的。 01 模型训练阶段 第一阶段 预训练(Pre-training) , 海量输入 ,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“ 广 ”。 第二阶段 监 督微 调 (SFT) , 问答对 ,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。 第三阶段 基于人 类反馈的强化学习 (RLHF ), 人工反馈 ,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道" 怎么说更好"。 第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览