文章预览
24年8月来自UC Berkeley和谷歌DeepMind 的论文“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”。 用更多的测试-时间计算, LLM 能够改进其输出,对于构建对开放式自然语言进行操作的自我改进智体,这是关键一步。本文研究 LLM 中推理-时间计算的规模化,重点回答以下问题:如果允许 LLM 使用固定但不凡的推理-时间计算量,那么它可以在多大程度上提高其在具有挑战性提示上的性能?回答这个问题不仅对 LLM 的可实现性能有影响,而且对 LLM 预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试-时间推理方法的规模化行为。此外,当前的工作在很大程度上为这些策略提供了负面结果。这项工作分析了测试-时间计算规模化的两种主要机制:(1) 针对密集的、 基于过程的验证器
………………………………