文章预览
DeepSeek R1 催化 了 reasoning model 的竞争:在过去的一个月里,头部 AI labs 已经发布了三个 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。随着头部 Al labs 先后释出自己的 reasoning model,新范式的第一轮竞赛暂时告一段落。 各家 reasoning model 各有长板,但都没有拉开大的领先优势: OpenAI 和 xAI 有着最强的 base model 和竞赛解题能力,Anthropic 更关注真实世界的工程问题,Claude 3.7 Sonnet 的混合推理模型可能会成为之后各家发布新模型的标准操作。 在这一波新模型密集发布后的间隙,我们对已有的 reasoning models 发布进行了总结梳理,除了平行比较各些模型的实际能力和长板外,更重要的目标是识别出本轮发布中的关键信号。 整体上,我们还处于 RL Scaling 的早期阶段,就在昨天, Dario 也暗示了 Sonnet 4 即将到来,RL 范式
………………………………