o1复现的一点点心得

吃果冻不吐果冻皮 · 公众号 · · 2024-12-29 12:20

文章预览

原文：https://zhuanlan.zhihu.com/p/13872128423 恰逢o3、gemini-flash-thinking版本推出，推理能力增强的模型已经把常见的benchmark刷到了一个遥不可及的结果，比如o3在aime24上直接干到29/30，code-force也刷到超过99.99%的人类。目前，推理模型主要在code、math、arg-agi等等上面有显著提升，而常用的翻译、对话等等场景，可能也用不到这么强的推理能力。可能真正能释放模型推理能力的场景是agent，由推理能力增强模型作为指挥家，调度一群不会思考只会工作的模型，降低推理成本 & 旧时代模型的合理利用（毕竟，直接把前代模型扔到垃圾桶，还是比较浪费钱）。不管怎么样，我们也需要在现有资源下，掌握一定的推理模型构建方法论，才能在其他场景包括agent、tool等等场景持续优化和提升模型解决复杂场景问题的能力。本文仅以开源数据和模型，总结了一下最近的一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

学长小谭考研 · 调剂小程序激活教程

昨天

学长小谭考研 · 调剂小程序激活教程

昨天

内蒙古自治区高级人民法院 · 如我在诉 | 内蒙古法院2024年度实质性化解矛盾纠纷十大典型案例（六）

2 天前

内蒙古自治区高级人民法院 · 如我在诉 | 内蒙古法院2024年度实质性化解矛盾纠纷十大典型案例（六）

2 天前

中国医疗器械行业协会 · 【行业新闻】2024年上半年中国外科手术设备国产品牌榜单发布：康多手术机器人份额增长超30%！

6 月前