专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

DeepSeek [1] 使用了 2015 年强化学习提示工程师-20250202080859

斌叔OKmath  · 微博  ·  · 2025-02-02 08:08
    

文章预览

2025-02-02 08:08 本条微博链接 DeepSeek [1] 使用了 2015 年强化学习提示工程师 [2] 及其 2018 年改进版 [3] 的元素,通过 1991 年的神经网络蒸馏程序 [4 ]:一个蒸馏的思路链系统,将 [2] 的 RL 机器和世界模型折叠成一个网络。 参考文献(在网上很容易找到): [1] #DeepSeekR1 (2025):通过强化学习激励法学硕士中的推理能力。arXiv 2501.12948 [2] J. Schmidhuber (JS, 2015)。关于学习思考:强化学习控制器和循环神经世界模型的新组合的算法信息理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览