注册登录

专栏名称: 斌叔OKmath

橙旭园CEO 教育博主教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

麒麟出海 · TEMU首次开放加拿大本地卖家入驻；TikT ... · 17 小时前

雨果网 · 大更新！TikTok ... · 昨天

TikTok Shop跨境电商 · PEAKS最佳实践｜这些TikTok ... · 昨天

雨果网 · 携手共进，开启跨境电商新征程——厦门市选品中 ... · 2 天前

今天看啥 › 专栏 › 斌叔OKmath

DeepSeek [1] 使用了 2015 年强化学习提示工程师-20250202080859

斌叔OKmath · 微博 · · 2025-02-02 08:08

文章预览

2025-02-02 08:08 本条微博链接 DeepSeek [1] 使用了 2015 年强化学习提示工程师 [2] 及其 2018 年改进版 [3] 的元素，通过 1991 年的神经网络蒸馏程序 [4 ]:一个蒸馏的思路链系统，将 [2] 的 RL 机器和世界模型折叠成一个网络。参考文献（在网上很容易找到）： [1] #DeepSeekR1 (2025)：通过强化学习激励法学硕士中的推理能力。arXiv 2501.12948 [2] J. Schmidhuber (JS, 2015)。关于学习思考：强化学习控制器和循环神经世界模型的新组合的算法信息理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

麒麟出海 · TEMU首次开放加拿大本地卖家入驻；TikTok更新美英跨境店入驻规则

17 小时前

雨果网 · 大更新！TikTok Shop调整美英跨境店入驻规则

昨天

TikTok Shop跨境电商 · PEAKS最佳实践｜这些TikTok Shop美区头部商家CEO和你分享增长秘籍！

昨天

雨果网 · 携手共进，开启跨境电商新征程——厦门市选品中心启动仪式圆满成功

2 天前

BMC科研永不止步 · OHAD文章解读 | 利用传统中草药治疗禽传染性支气管炎 | 转载

9 月前

OneFlow · OpenAI停服，国产大模型免费用！开发者Token自由实现了

8 月前

盖世汽车新能源 · E周看点 | 欧盟将对中国纯电动汽车加征关税；赛力斯收购AITO问界商标

7 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号