3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

深度学习与NLP · 公众号 · · 2024-12-19 11:00

文章预览

来源 | 机器之心最近一段时间，业内对小模型的研究热情空前地高涨，通过一些「实用技巧」让它们在性能上超越更大规模的模型。可以说，将目光放到提升较小模型的性能上来有其必然性。对于大语言模型而言，训练时计算（train-time compute）的扩展主导了它们的发展。尽管这种模式已被证明非常有效，但越来越大模型的预训练所需的资源却变得异常昂贵，数十亿美元的集群已经出现。因此，这一趋势引发了人们对另外一种互补方法的极大兴趣，即测试时计算扩展（test-time compute scaling）。测试时方法不依赖于越来越大的预训练预算，而是使用动态推理策略，让模型在更难的问题上「思考更长时间」。一个突出的例子是 OpenAI 的 o1 模型，随着测试时计算量的增加，它在困难数学问题上表现出持续的进步。虽然我们不清楚 o1 是如何训练的，但 DeepMi ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博