注册登录

专栏名称: AI前线

InfoQ十年沉淀，为千万技术人打造的专属AI公众号。追踪技术新趋势，跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

爱可可-爱生活 · [CV]《Improving the ... · 15 小时前

爱可可-爱生活 · 本文通过深入的参数设计空间探索和知识蒸馏技术 ... · 14 小时前

爱可可-爱生活 · 【最全面的Grok ... · 2 天前

爱可可-爱生活 · 【kg-gen：从任何文本中提取知识图谱的A ... · 3 天前

机器之心 · DeepSeek ... · 3 天前

今天看啥 › 专栏 › AI前线

DeepSeek 颠覆了什么？学习不靠“人盯”，AI自己“卷”自己

AI前线 · 公众号 · AI · 2025-02-17 15:54

文章预览

本文整理自 InfoQ 策划的 DeepSeek 系列直播第二期节目—— DeepSeek 爆火背后 DeepSeek，纯强化学习路线到底有何不同。在直播中，出门问问大模型团队前工程副总李维博士聚焦推理范式的创新，分析了 R1 Zero 对推理模型平民化的创新贡献。他提到，DeepSeek 通过开源和透明化，证明了不需要过程监督，仅通过结果控制就能训练出优秀的推理模型，这大大颠覆了传统认知以及 OpenAI 所暗示的需要在每一步监督推理强化学习的观点。下文为直播部分内容精选，完整直播回放 & 最新直播预约可关注“AI 前线视频号”查看。 DeepSeek 的最大功绩在于将这一切透明化 InfoQ：“DeepSeek 坚持纯强化学习路线，但业界常说 RL（强化学习）是‘炼丹’”——他们如何让这个过程可控和“平民化”？有什么"推理范式的创新"？李维博士：实际上，推理模型的强化学 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [CV]《Improving the Diffusability-20250222053332

15 小时前

爱可可-爱生活 · 本文通过深入的参数设计空间探索和知识蒸馏技术，为在边缘设备上部署-20250222053937

14 小时前

爱可可-爱生活 · 【最全面的Grok 3已知信息汇总与解读】关键信息摘要：- 发布-20250220080309

2 天前

爱可可-爱生活 · 【kg-gen：从任何文本中提取知识图谱的AI工具。亮点：1. -20250219195616

3 天前

机器之心 · DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

3 天前

计算机视觉life · 南京线下交流会预报名~

9 月前

IPRdaily · 《重庆市专利申请前评估工作指引（1.0）》全文发布！

5 月前

集微网 · 芯片巨头全球裁员10%已开始；高通完成芯片技术最新收购！国产OLED将实现跟跑到领跑的转折；印度厂生产中断,苹果或转向中国救急

4 月前

中交一航 · 阁下可曾见过这些“名场面”？

4 月前

新洞察 · 这不是日本鬼子么？

4 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号