专栏名称: InfoQ
有内容的技术社区媒体。
今天看啥  ›  专栏  ›  InfoQ

DeepSeek 爆火真相:不靠“人盯”, 让 AI 自己学会慢思考

InfoQ  · 公众号  · 科技媒体  · 2025-02-17 15:18
    

文章预览

本文整理自 InfoQ 策划的 DeepSeek 系列直播第二期节目—— DeepSeek 爆火背后 DeepSeek,纯强化学习路线到底有何不同 。在直播中,出门问问大模型团队前工程副总李维博士聚焦推理范式的创新,分析了 R1 Zero 对推理模型平民化的创新贡献。他提到,DeepSeek 通过开源和透明化,证明了不需要过程监督,仅通过结果控制就能训练出优秀的推理模型,这大大颠覆了传统认知以及 OpenAI 所暗示的需要在每一步监督推理强化学习的观点。 下文为直播部分内容精选,完整直播回放 & 最新直播预约可关注“AI 前线视频号”查看。 DeepSeek 的最大功绩在于将这一切透明化 InfoQ:“DeepSeek 坚持纯强化学习路线,但业界常说 RL(强化学习)是‘炼丹’”——他们如何让这个过程可控和“平民化”?有什么"推理范式的创新"? 李维博士: 实际上,推理模型的强化学习 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览