专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
今天看啥  ›  专栏  ›  歸藏的AI工具箱

昨晚的信息流都被 DeepSeek 刷屏了#AI创造营##ai#-20250121110623

歸藏的AI工具箱  · 微博  ·  · 2025-01-21 11:06
    

文章预览

2025-01-21 11:06 本条微博链接 昨晚的信息流都被 DeepSeek 刷屏了 #AI创造营# #ai# 整理了一些大佬们对 R1 论文的发现: DeepSeek-R1开发过程中遇到的两个失败尝试,包括过程奖励模型(PRM)的尝试和蒙特卡洛树搜索(MCTS)的尝试 从 Deepseek 仍然在使用 GRPO 等 GPU 性能较差的方法推断他们可能没有很多 Hopper GPU。 Livebench 和 Aider 排行榜上的测试结果都是仅次于 O1 成本只有 O1 的三十分之一 DeepSeek-R1 在强化学习阶段没有进行任何微调,但是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览