注册登录

专栏名称: 包包算法笔记

数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

硅谷王川 · 深度睡眠时脑细胞之间的缝隙比平时扩张 ... · 9 小时前

投行小兵 · 如何发现IPO财务造假的蛛丝马迹？ · 3 天前

今天看啥 › 专栏 › 包包算法笔记

人人都能看懂的DPO数学原理

包包算法笔记 · 公众号 · · 2024-09-10 10:01

文章预览

一、DPO在做一件什么事在文章的开始，我们来思考一个问题：如果想让你训练一个能听得懂人类问题，并给出人类满意答案的模型，你会怎么设计大致的训练步骤？一口吃成一个大胖子是困难的，所以不如让我们循序渐进地来设计这个训练过程：首先，你的模型必须要有充足的知识储备，以应对你可能提出的任何问题其次，你的模型需要明白“你在提出问题”或者“你在下达指令”这个动作，它在理解这一点的基础上，尝试按照你的指令给出相应的回答最后，你希望模型不仅能对你的问题给出答案，还需要给出令你满意的回答，也就是你希望模型对齐你的偏好。我们以chatGPT的训练为例，看看它是如何贴合这个训练步骤的：首先，它使用大量的数据(文本、代码、数学等)，先训练出一个base模型。这个训练过程赋予模型对文本上下文的理解能力 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

硅谷王川 · 深度睡眠时脑细胞之间的缝隙比平时扩张 60%，有助于大脑清理所谓-20250428233237

9 小时前

投行小兵 · 如何发现IPO财务造假的蛛丝马迹？

3 天前

MaterialsViews · 《大分子快讯》在线墙报奖票选正式启动！

10 月前

科技阿水 · Adobe2025，全家桶授权版来了！

6 月前

蕉下鲁班 · 虎牙女主播酷萱是被榜一大哥杀害的吗？

4 月前

演曼巴 · 由于今日湖人侠的出色发挥，湖人依旧排在西部第五。明天湖人有机会上-20250107141309

3 月前

青岛新闻网 · 爆炸前4分钟停录！韩国失事客机"黑匣子"最新进展

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号