今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

量子位 · 公众号 · AI · 2024-11-13 14:54

文章预览

一水发自凹非寺量子位 | 公众号 QbitAI 几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。换句话就是，对于大规模的训练任务，低精度的量化可能不再足够有效。按照结论，对Scaling Law的遵循意味着我们需要保持更高精度，然而一直以来，人们通常会选择量化（将连续值或多精度值转换为较低精度）来节省计算资源。一旦结论成立，GPU的设计和功能可能也需要相应调整，因为传统上，GPU的性能提升部分依赖于对低精度计算的优化。正如艾伦AI研究所科学家所指出的：这是很长时间以来最重要的论文。它用强有力的证 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博