算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

大模型智能 · 公众号 · · 2024-12-30 00:00

文章预览

大模型智能｜分享来源 | 量子位作者 | 一水好家伙！1750亿参数的GPT-3只需20MB存储空间了？！基于1.58-bit训练，在不损失精度的情况下，大幅节省算力（↓97%）和存储（↓90%）。最近，从事机器学习的Will小哥发了一篇论文，直接引来几十万网友or同行围观。他提出了一项名为“noise_step”的新技术，允许模型直接在1.58-bit低精度下训练，且无需反向传播或动量（Momentum）加速，从而降低算力和存储消耗。对此，网友们也纷纷发来祝贺，表示很高兴看到模型越来越具有性价比。话不多说，来看论文具体内容。 01 反向传播不需要了简单说，noise_step的目标是通过降低模型训练的精度要求，来减少算力和存储消耗。一开始，作者提到前人研究已经表明，大语言模型（LLM）的推理可以在1.58-bit精度下进行，且不会有任何性能损失。比如下面这篇论文，有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博