专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law

量子位  · 公众号  · AI  · 2024-09-11 12:27

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 不必增加模型参数,计算资源相同,小模型性能超过比它大 14倍 的模型! 谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。 研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时 (Test-Time) 的计算资源。 结果发现这种方法在一些情况下 比单纯扩展模型参数更经济有效。 换句话说,在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。 推理时用额外计算来改进输出 这项研究的核心问题是—— 在一定计算预算内解决prompt问题,不同的计算策略对于不同问题的有效性有显著差异。我们应如何评估并选择最适合当前问题的测试时计算策略?这种策略与仅仅使用一个更大的预训练模型相比,效果如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览