文章预览
点击上方 蓝字 关注我 本文:5900字阅读 15分钟 近期, Best-of-N 方法在大语言模型 (LLM) 推理任务中的应用可谓是风生水起。这个简单而有效的策略通过从 LLM 中采样 N 个候选答案,然后选择其中最佳的一个,显著提升了模型的推理性能。然而,这种方法也面临着一个明显的瓶颈 - 计算开销。每增加一倍的 N 值,推理时间就会增加一倍。 往期推荐 用近期火爆的Best-of-N策略加成变分推理Prompt,生成2024巴黎奥运会创意亮点介绍文章 斯坦福、剑桥大学重磅:LLM的无限猴子定理,用重复采样Prompt扩展推理能力,提高输出准确率 上面2024巴黎奥运会那篇我介绍过 DeepMind 的 BON D (Best-of-N Distillation) 。 面对这一挑战,DeepMind的研究团队又提出了一种创新的解决方案 - 生成验证器(GenRM)。这项最新研究不仅巧妙地解决了Best-of-N的计算开销问题,还在多个推理任
………………………………