注册
登录
专栏名称:
宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
新智元
·
Sora火爆上线系统秒瘫,奥特曼直播第三更网 ...
·
2 天前
新智元
·
o1 ...
·
3 天前
量子位
·
什么?程序员礼盒还自带大模型彩蛋,碰一下就可触发
·
3 天前
爱可可-爱生活
·
【Clevrr-Computer:一个开源的 ...
·
4 天前
爱可可-爱生活
·
【AkiraDocs:智能文档平台,能够自动 ...
·
5 天前
今天看啥
›
专栏
›
宝玉xp
训练思维链最重要不是用于预训练的语料,而是后训练中奖励模型用的语-20240914040845
宝玉xp
·
微博
·
AI
· 2024-09-14 04:08
文章预览
2024-09-14 04:08 本条微博链接 训练思维链最重要不是用于预训练的语料,而是后训练中奖励模型用的语料,就是模型推演出来好的思维链能获得奖励,不好的思维链有惩罚,而最适合做奖励模型训练的是高质量代码库和数学解题库,可以有效的根据思维链结果判断是好还是坏,其他领域的都不好判断结果是好是坏,这也是为什么 o1 在数学和编程方面表现最好。 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
新智元
·
Sora火爆上线系统秒瘫,奥特曼直播第三更网友震翻!20秒1080p拍大片再近AGI
2 天前
新智元
·
o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!
3 天前
量子位
·
什么?程序员礼盒还自带大模型彩蛋,碰一下就可触发
3 天前
爱可可-爱生活
·
【Clevrr-Computer:一个开源的AI自动化助手,基于-20241208153544
4 天前
爱可可-爱生活
·
【AkiraDocs:智能文档平台,能够自动编写、翻译和优化文档-20241207162926
5 天前
上辈子是hr
·
社招 | 上海交通大学安泰经济与管理学院招聘(上海)
5 月前
地球知识局
·
中国现在,非常缺钾
4 月前
红星新闻
·
热搜爆了!樊振东夺得奥运男单冠军!拿下大满贯
4 月前