专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己

AI前线  · 公众号  · AI  · 2025-02-17 15:54
    

文章预览

本文整理自 InfoQ 策划的 DeepSeek 系列直播第二期节目—— DeepSeek 爆火背后 DeepSeek,纯强化学习路线到底有何不同 。在直播中,出门问问大模型团队前工程副总李维博士聚焦推理范式的创新,分析了 R1 Zero 对推理模型平民化的创新贡献。他提到,DeepSeek 通过开源和透明化,证明了不需要过程监督,仅通过结果控制就能训练出优秀的推理模型,这大大颠覆了传统认知以及 OpenAI 所暗示的需要在每一步监督推理强化学习的观点。 下文为直播部分内容精选,完整直播回放 & 最新直播预约可关注“AI 前线视频号”查看。 DeepSeek 的最大功绩在于将这一切透明化 InfoQ:“DeepSeek 坚持纯强化学习路线,但业界常说 RL(强化学习)是‘炼丹’”——他们如何让这个过程可控和“平民化”?有什么"推理范式的创新"? 李维博士: 实际上,推理模型的强化学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览