今天看啥  ›  专栏  ›  自动驾驶Daily

DeepSeek R1 理论概述 | GRPO + RL + SFT

自动驾驶Daily  · 公众号  ·  · 2025-02-12 07:30
    

文章预览

作者 | yiha  编辑 | 具身智能之心 原文链接:https://www.unifolm.com/#/post/481 点击下方 卡片 ,关注“ 具身智能之心 ”公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身 ‍ 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 翻译视频原地址:https://www.bilibili.com/video/BV158FzedEpp?spm_id_from=333.788.videopod.sections _source=dfbcf78000d12107889d1c577759e775 原视频链接:https://www.youtube.com/watch?v=QdEuh2UVbu0 DeepSeek R1 论文的概述,论文地址:https://arxiv.org/abs/2501.12948v1 讲座的知识纲要: 视频主题 主题 :DeepSeek R1理论概述,涉及GRPO(Group Relative Policy Optimization)、RL(Reinforcement Learning,强化学习)和SFT(Supervised Fine-Tuning,监督微调)。 来源 :YouTube视频,内容是对DeepSeek R1论文的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览