文章预览
本文 约3000字 ,建议阅读 5 分钟 本文介绍了MAGICORE,这是一种自适应地为更具挑战性的问题分配更多计算资源的方法。 大语言模型(LLM)的推理能力可以通过测试时聚合策略来改进,即为每个问题生成多个样本并对它们进行聚合以找到更好的答案。这些方法往往会达到饱和点,超过这个点后额外的样本不会带来更多收益。精炼(refinement)提供了另一种选择,它使用模型生成的反馈不仅采样更多解决方案,还提高它们的质量。但是精炼引入了三个关键挑战: (1)过度精炼: 对所有实例进行统一精炼可能导致过度校正并降低整体性能。 (2)无法定位和解决错误: LLM自我纠正能力有限,难以以有针对性的方式识别和纠正自己的错误。 (3)精炼不足: 确定需要多少轮精炼并非易事,过早停止可能会导致错误未得到解决。 为了解决这些问题,论文提出了MAGICORE,一个用
………………………………