注册
登录
专栏名称:
黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
宝玉xp
·
回复@新答觉得研究真是太难了T_T:分析St ...
·
昨天
爱可可-爱生活
·
【用AI加速学习的秘诀(10个关键提示词模板 ...
·
2 天前
爱可可-爱生活
·
【[5.3k星]TinyTroupe:微软推 ...
·
2 天前
爱可可-爱生活
·
本文提出了 AITP ...
·
3 天前
爱可可-爱生活
·
[CL]《LatteReview: A ...
·
3 天前
今天看啥
›
专栏
›
黄建同学
DeepSeek-R1,通过创新的无监督强化学习和开源策略展现了-20250122080918
黄建同学
·
微博
·
AI
· 2025-01-22 08:09
文章预览
2025-01-22 08:09 本条微博链接 DeepSeek-R1,通过创新的无监督强化学习和开源策略展现了其独特性,从某种角度来说,已经在模型研发方面从模仿到超越OpenAI了。 1. 后训练与强化学习: DeepSeek-R1在后训练阶段大规模应用了强化学习(RL)技术,尤其是其基础版本DeepSeek-R1-Zero,完全依赖于纯强化学习进行训练,而不使用监督微调(SFT)。这种方法使得模型在极少标注数据的情况下,依然能够显著提升推理能力。 2. 群组相对策略优 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
宝玉xp
·
回复@新答觉得研究真是太难了T_T:分析Stripe支付流量//-20250122003656
昨天
爱可可-爱生活
·
【用AI加速学习的秘诀(10个关键提示词模板)】10个实用的AI-20250121085010
2 天前
爱可可-爱生活
·
【[5.3k星]TinyTroupe:微软推出的AI驱动多角色模-20250120190504
2 天前
爱可可-爱生活
·
本文提出了 AITP 方法,通过识别并改写预训练语料库中现有指令-20250120053346
3 天前
爱可可-爱生活
·
[CL]《LatteReview: A Multi-Agent -20250120060723
3 天前
心榜
·
小城咨询师入驻首选:壹心理自营招募计划
5 月前
物联网智库
·
从“万物互联”向“万物智联”,深度解读工信部移动物联网最新政策
4 月前
有书
·
三九进九时间表,太实用了,送给大家
4 周前
版权为什么
·
01.07 商标主题谷歌搜索快讯
2 周前