Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

深度学习与NLP · 公众号 · · 2024-11-14 00:00

文章预览

来源 | 机器之心最近几天，AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。 CMU 教授 Tim Dettmers 则直接说：它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。 Tim Dettmers 表示，可以说，人工智能的大部分进步都来自计算能力的提升，而（在最近）这主要依赖于低精度路线的加速（32- > 16 - > 8 位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。例如，英伟达最新的 AI 计算卡 Blackwell 将拥有出色的 8 位能力，并在硬件层面实现逐块量化。这将使 8 位训练变得像从 FP16 切换到 BF16 一样简单。然而，正如我们从新论文中看到的那样，对于很多大模型的训练来说，8 位是不够的。与其他模型相比，Llama 405B 没有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博