注册登录

专栏名称: 斌叔OKmath

橙旭园CEO 教育博主教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

天津市应急管理局 · 津城二十四节气｜今晚22:10，天津将迎来—— · 昨天

生态梦网 · 注意防范！滨海新区发布蓝色预警 · 昨天

生态梦网 · 生啦！生啦！生态城医院迎来首个“蛇宝宝” · 4 天前

今天看啥 › 专栏 › 斌叔OKmath

Google 这篇论文的结论非常清晰：《SFT 负责记忆, RL-20250203081049

斌叔OKmath · 微博 · · 2025-02-03 08:10

文章预览

2025-02-03 08:10 本条微博链接 Google 这篇论文的结论非常清晰：《SFT 负责记忆, RL 负责泛化》简单结论：监督微调 (SFT) 就像给学生看大量的例题和答案。学生通过模仿例题来学习。强化学习 (RL) 就像让学生自己解题，答对了给奖励，答错了给惩罚。学生通过试错和总结规律来学习。研究人员设计了两个任务来测试模型：通用点数 (GeneralPoints) 纸牌游戏：这是一个纸牌算术游戏，需要用四张牌凑出目标数字 24。研究人员 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

天津市应急管理局 · 津城二十四节气｜今晚22:10，天津将迎来——

昨天

生态梦网 · 注意防范！滨海新区发布蓝色预警

昨天

生态梦网 · 生啦！生啦！生态城医院迎来首个“蛇宝宝”

4 天前

BioAdvance · 糖皮质激素通过代谢重编程骨髓源性的巨噬细胞发挥抑炎作用

8 月前

APPSO · 发布 14 年后，iPad 要彻底横过来了

8 月前

不正常人类研究中心 · 这些马桶设计的还是很独特的

8 月前

新浪科技 · 【CEO发全员信：#去哪儿员工周三周五可自由选择办公地点#】去哪-20240709135500

7 月前

大淘宝技术 · 关于垂直领域大模型的探索和尝试

6 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号