今天看啥  ›  专栏  ›  PaperAgent

OpenAI草莓Q*又来拉预期,微软r*推理已取得新突破!

PaperAgent  · 公众号  ·  · 2024-09-12 20:55

文章预览

来自The Information的消息,OpenAI的草莓Q*项目将于两周内上线!这次是真的吗?还是又来炒作,拉预期尼,真假难辨,毕竟前面OpenAI的草莓Q*项目被大肆炒作过一次,预期拉满之后,却只是 发布了一个SWE-bench。 lmsys神秘项目疑似GPT-4o新模型? 抛开 OpenAI的草莓Q*项目是否能如约发布,它 跟其他大模型的区别是啥呢? 更擅长复杂的问题,或多步骤查询,通过中间推理步骤来得出答案,那么如何提升模型的推理能力尼?今天带来 微软开源的 rStar技术 : rStar 是一种自博弈相互推理方法,它通过以下方式 显著 提高了小型语言模型(SLMs)的 推理 能力: 自博弈相互推理是一个生成-鉴别过程 :(1) 自生成器 通过 MCTS 增强目标 SLM 以生成候选推理轨迹;(2) 鉴别器 使用另一个 SLM 根据部分提示对每个轨迹提供无监督反馈;(3)基于这些反馈,目标 SLM 确定 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览