专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
今天看啥  ›  专栏  ›  宝玉xp

训练思维链最重要不是用于预训练的语料,而是后训练中奖励模型用的语-20240914040845

宝玉xp  · 微博  · AI  · 2024-09-14 04:08
    

文章预览

2024-09-14 04:08 本条微博链接 训练思维链最重要不是用于预训练的语料,而是后训练中奖励模型用的语料,就是模型推演出来好的思维链能获得奖励,不好的思维链有惩罚,而最适合做奖励模型训练的是高质量代码库和数学解题库,可以有效的根据思维链结果判断是好还是坏,其他领域的都不好判断结果是好是坏,这也是为什么 o1 在数学和编程方面表现最好。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览