专栏名称: 数据何规

数据安全及个人信息保护。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

珠江频道 · 知名香港歌手去世，终年60岁！两周前曾发文…… · 2 天前

浙江之声 · 一票难求！知名歌手复出开唱，曾被强制送进精神病院 · 2 天前

湖北日报 · 知名歌星为武汉准备的惊喜，公布了！ · 3 天前

天下泉城 · 审批通过！周杰伦济南演唱会时间确定！ · 3 天前

台州交通广播 · 周六晚，这位男明星要来台州府城开音乐会 · 3 天前

今天看啥 › 专栏 › 数据何规

《大模型训练数据白皮书》学习笔记

数据何规 · 公众号 · · 2024-06-05 17:36

文章预览

2024年5月24日，阿里研究院发布了《大模型训练数据白皮书》。有基础知识的科普，也有一些有趣的观点，摘录分享一下。这篇没有用AI，手工摘录的。 01 模型训练阶段第一阶段预训练（Pre-training），海量输入，通过大量学习世界知识，构建模型的基础能力，理解客观世界的规律，该阶段的语料特征可以概括为“ 广 ”。第二阶段监督微调（SFT），问答对，通过标注人员设计问答，编写正确答案，将例题投喂给模型，并希望模型在没有见过的任务中“举一反三”，提升泛化能力。第三阶段基于人类反馈的强化学习（RLHF ），人工反馈，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道" 怎么说更好"。第二和第三阶段的数据质量要求较高，需要来自人类的高质量反馈，语料特征可以概括为“ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

珠江频道 · 知名香港歌手去世，终年60岁！两周前曾发文……

2 天前

浙江之声 · 一票难求！知名歌手复出开唱，曾被强制送进精神病院

2 天前

湖北日报 · 知名歌星为武汉准备的惊喜，公布了！

3 天前

湖北日报 · 知名歌星为武汉准备的惊喜，公布了！

3 天前

天下泉城 · 审批通过！周杰伦济南演唱会时间确定！

3 天前

天下泉城 · 审批通过！周杰伦济南演唱会时间确定！

3 天前

台州交通广播 · 周六晚，这位男明星要来台州府城开音乐会

3 天前

台州交通广播 · 周六晚，这位男明星要来台州府城开音乐会

3 天前

集邦新能源 · TrendForce集邦咨询：光伏产业供应链价格报告（2024年6月26日~7月3日）

8 月前

吉林省高级人民法院 · 女法官国际日丨MV：巾帼的玫瑰永远绽放

3 周前