Grok 3用20万GPU帮AI界做了个实验：Scaling Law没撞墙，但预训练不一定

腾讯科技 · 公众号 · 科技媒体 · 2025-02-19 20:14

文章预览

中国中文信息学会理事，中科院软件所博士张俊林媒体风向变化太快，让人目不暇接。早上还在夸DeepSeek成本低，性价比高，预训练Scaling Law死了，不需要太多机器和GPU卡，性价比优先，英伟达休矣；中午Grok 3一出来，说是用了10万张英伟达H100卡，效果力压OpenAI o3 mini和DeepSeek R1，就转向说Scaling Law还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹…… 这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。预训练阶段的Scaling Law是否仍然成立预训练阶段的Scaling Law成立吗？当然是成立的，所谓 “Scaling Law 撞墙”，大家普遍遇到的问题是数据不够了，没有大量新数据，导致预训练阶段的Scaling Law走势趋缓，注意是趋缓但不是停顿，预训练阶段的Scaling Law并没到天花板。按照Chinchilla Scaling Law推断，即使没有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博