文章预览
随着 o1、o1 Pro 和 o3 的成功发布,我们明显看到,推理所需的时间和计算资源逐步上升。可以说,o1 的最大贡献在于它揭示了提升模型效果的另一种途径: 在推理过程中,通过优化计算资源的配置,可能比单纯扩展模型参数更为高效。 上述的结论不是凭空提出的,在谷歌八月发表的一篇论文中通过系统全面的实验,进行了详细的论证。同时论文中对于如何验证最佳结果给出了详细的分析。 论文标题: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 论文链接: https://arxiv.org/pdf/2408.03314 相比通过增量预训练或者微调的方式,增加推理资源更加简单直接,不需要大量的数据和成本,减少了训练微调带来的试错成本,对于快速的效果验证是多么理想的方案。 我们知道大模型的生成过程是 token by token 的生成方式,假如词表大小是 V,
………………………………