LLM 的测试-时间计算规模化比模型参数规模化更有效

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-16 05:20

文章预览

24年8月来自UC Berkeley和谷歌DeepMind 的论文“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”。用更多的测试-时间计算， LLM 能够改进其输出，对于构建对开放式自然语言进行操作的自我改进智体，这是关键一步。本文研究 LLM 中推理-时间计算的规模化，重点回答以下问题：如果允许 LLM 使用固定但不凡的推理-时间计算量，那么它可以在多大程度上提高其在具有挑战性提示上的性能？回答这个问题不仅对 LLM 的可实现性能有影响，而且对 LLM 预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要，但很少有研究试图了解各种测试-时间推理方法的规模化行为。此外，当前的工作在很大程度上为这些策略提供了负面结果。这项工作分析了测试-时间计算规模化的两种主要机制：(1) 针对密集的、基于过程的验证器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博