Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

机器之心 · 公众号 · AI · 2024-11-13 13:23

文章预览

机器之心报道作者：泽南、小舟研究表明，你训练的 token 越多，你需要的精度就越高。最近几天，AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。 CMU 教授 Tim Dettmers 则直接说：它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。 Tim Dettmers 表示，可以说，人工智能的大部分进步都来自计算能力的提升，而（在最近）这主要依赖于低精度路线的加速（32- > 16 - > 8 位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。例如，英伟达最新的 AI 计算卡 Blackwell 将拥有出色的 8 位能力，并在硬件层面实现逐块量化。这将使 8 位训练变得像从 FP16 切换到 BF16 一样简单。然而，正如我们从新论文中看到的那样，对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 国产AI眼镜1799元现货开卖！阿里的定制大模型，深圳的硬件

19 小时前

黄建同学 · Google发布Agents 42页白皮书↓人类在复杂的模式识别-20250106153851

2 天前

李继刚 · 应用: AI 关键词卡片

2 天前

爱可可-爱生活 · 【Olah：自托管的轻量Huggingface镜像服务，能在用户-20250105142715

3 天前

爱可可-爱生活 · 本文提出了一种基于硬币投注的无参数自适应共形推断方法，克服了传统-20250105053150

3 天前

诸海滨科新先声 · 【开源北交所】万达轴承：下游叉车行业高景气度延续，2024Q2单季度营收达历史新高

4 月前